Python for Data Analysis 





华章 科技 





O'REILLY” Wes McKinmney 著 


| ee 
起 纺 天才 此 属 闪 唐 学 帮 等 译 


Data/Python 





利用 Python 进行 数据 分 析 


还 在 苦 苦 寻 砚 用 Python 控制 、 处 理 、 整 理 、 分 析 结 构 化 数据 的 完整 课 ”“ 科 学 计算 和 数据 分 析 社 区 已 经 等 


程 ? 本 书 含有 大 量 的 实践 案例 ， 你 将 学 会 如 何 利用 各 种 Python 库 ( 包 
括 NumPy、pandas、matplotlib 以 及 IPython 等 ) 高 效 地 解决 各 式 各 样 的 
数据 分 析 问题 。 

由 于 作者 Wes McKinney 是 pandas 库 的 主要 作者 ， 所 以 本 书 也 可 以 作为 
利用 Python 实 现 数 据 密集 型 应 用 的 科学 计算 实践 指南 。 本 书 适合 刚刚 
接触 Python 的 分 析 人 员 以 及 刚刚 接触 科学 计算 的 Python 程序 员 。 


日 将 IPython 这 个 交互 式 Shell 作 为 你 的 首要 开发 环境 。 

m 学 习 NumPy (Numerical Python) 的 基础 和 高 级 知识 。 

m 从 pandas 库 的 数据 分 析 工 具 开始 。 

和 利用 高 性 能 工具 对 数据 进行 加 载 、 清 理 、 转 换 、 合 并 以 及 重 亨 。 
a 利用 matplotlib 创 建 散 点 图 以 及 静态 或 交互 式 的 可 视 化 结果 。 

9 利用 pandas 的 groupby 功 能 对 数据 集 进 行 切片 、 切 块 和 汇总 操作 。 
日 处 理 各 种 各 样 的 时 间 序列 数据 。 


a 通过 详细 的 案例 学 习 如 何 解决 Web 分 析 、 社 会 科学 、 金 融 学 以 及 经 
济 学 等 领域 的 问题 。 


Wes McKinney 资深 数据 分 析 专 家 ， 对 各 种 Python 库 (包括 
NumPy、pandas、matplotlib 以 及 IPython 等 ) 都 有 深入 研究 ， 并 在 
大 量 的 实践 中 积累 了 丰富 的 经 验 。 撰 写 了 大 量 与 Python 数据 分 析 相 
关 的 经 典 文章 ， 被 各 大 技术 社区 争 相 转载 ， 是 Python 和 开源 技术 社 
区 公认 的 权威 人 物 之 一 。 开 发 了 用 于 数据 分 析 的 著名 开源 Python 
库 一 一 pandas， 广 获 用 户 好 评 。 在 创建 Lambda Foundry (一 家 致力 
于 企业 数据 分 析 的 公司 ) 之 前 ， 他 曾 是 AQR Capital Management 
的 定量 分 析 师 。 


待 这 本 书 很 多 年 了 : 大 量具 体 的 

实践 建议 ， 以 及 大 量 综合 应 用 方 

法 。 本 书 在 未 来 几 年 里 肯定 会 成 

为 Python 领域 中 技术 计算 的 权 
威 指南 。” 

一 一 Fernando PErez 

加 州 大 学 伯克利 分 校 

研究 科学 家 ， 

IPython 的 创始 人 之 一 
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译 者 序 


说 句 真心 话 ， 我 非常 感谢 有 机 会 翻译 这 本 书 ， 所 以 这 可 算是 第 一 篇 我 自己 真正 想 写 的 译 者 
序 。 虽 然 之 前 也 翻译 过 好 几 本 书 ， 但 都 没有 这 次 的 感悟 这 么 多 、 这 么 深 ! 这 本 书 是 我 花 精 
力 和 时 间 最 多 ， 同 时 也 是 最 不 满意 的 一 本 ， 就 是 因为 这 些 感悟 一 一 我 始终 觉得 ， 如 果 再 
多 点 时 间 的 话 ， 我 还 可 以 翻译 得 更 好 。 


本 书 的 内 容 非 常 好 ， 至 少 有 一 点 非常 好 一 一 集中 火力 对 付 特 定 的 应 用 领域 。 市 面 上 介绍 
编程 的 书 多 如 牛 毛 ， 但 几乎 没有 几 本 书 是 针对 特定 应 用 场景 的 。 这 本 书 对 新 手 来 说 绝对 是 
福音 ， 因 为 每 看 完 一 点 就 可 以 马上 将 自己 手 上 的 工作 直接 拿 来 当 例子 练 手 ， 这 种 立竿见影 
的 学 习 效果 ， 绝 对 会 增强 新 手 的 学 习 信心 。 


本 书 内 容 虽 好 ， 但 由 于 作者 是 编辑 界 牛 人 ， 平 时 的 工作 肯定 不 少 ， 写 书 方 面 的 精力 自然 就 
不 可 能 太 多 。 加 之 美式 英语 本 来 就 很 口语 化 ， 导 致 原 书 口水 话 非 常 多 ， 有 些 地 方 的 从 句 跟 
绕口令 似 的 。 我 在 翻译 的 过 程 中 尽量 排除 了 一 些 ， 两 次 校 稿 的 过 程 中 又 删除 或 大 幅 修改 了 
- 些 废话 ， 虽 然 这 种 “口水 话 ” 还 存在 不 少 ， 但 至 少 不 会 对 阅读 造成 太 大 影响 。 如 果实 在 
觉得 语言 不 通顺 ， 请 随时 发 邮件 给 我 ， 欢 迎 大 家 的 善意 指导 (ionmytan81999@126.com) 。 


此 外 ， 在 翻译 的 过 程 中 发 现 了 不 少 小 问题 ， 用 词 方面 的 错误 几乎 都 是 直接 改 的 〈 小 部 分 写 
了 译 者 注 ， 因 为 编辑 要 求 我 尽量 标 出 一 些 来 以 便 核对 ) ， 而 其 他 错误 则 几乎 全 部 采用 译 
者 注 的 形式 说 明 ， 还 有 一 些 原文 有 歧义 或 不 详尽 的 地 方 也 通过 译 者 注 的 形式 给 出 了 简单 
说 明 。 


本 书 共 12 章 ， 除 非 你 已 经 什么 都 会 了 ， 否 则 我 建议 全 部 阅读 。 如 果 没 有 学 过 Python， 建 议 
先 看 看 本 书后 面 的 附录 。 本 书 所 用 到 的 Python 编程 基础 知识 很 少 ， 所 以 只 看 那个 附录 完全 


足够 了 。 但 是 ， 如 果 你 一 点 儿 编程 基础 都 没有 的 话 ， 可 能 需要 再 看 一 本 有 关 Python 入 门 的 
书 才 行 (比如 《Python 编程 实践 》 编 注 ) 。 


对 了 ， 还 有 几 件 事情 需要 说 明 一 下 : 


。 ”每 章 的 代码 示例 最 好 在 一 个 IPython 会 话 中 完成 ， 否 则 可 能 会 出 现 一 些 不 必要 的 麻 
烦 ， 比 如 “xxx 未 定义 ”。 


。 ”如 果 在 Windows 里 面 用 IPython， 复 制 代 码 的 时 候 建议 使 用 cpaste， 这 个 不 多 解释 了 。 


。 “有 关 地 图 的 那 段 代码 可 能 需要 找 英文 资料 看 才 行 ， 我 在 译 者 注 中 也 说 明了 。 这 可 能 
需要 花 不 少时 间 和 精力 。 


。 ”由 于 原文 各 种 说 法 不 统一 (甚至 包括 术语 ) ， 虽 然 我 尽量 做 了 统一 处 理 ， 但 由 于 
精力 和 时 间 有 限 ， 无 法 完全 修改 ， 所 以 译文 中 的 “xxx 接 受 yyy”、“ 将 yyy 传 人 
xxx” 说 的 都 是 “xxx 函 数 有 yyy 这 么 个 参数 ”，“ 选 项 ”、“ 位 置 参 数 ”、“ 关 键 
字 参 数 ”、“ 形 参 ”、“ 实 参 ” 说 的 都 是 “参数 ”…… 还 有 不 少 ， 我 也 记 不 清 了 。 

。 “金融 和 经 济 数据 ” 那 一 章 翻 译 得 非常 痛苦 ， 因 为 我 根本 不 了 解 那 个 行业 ， 原 文 
的 术语 又 不 标准 ， 于 是 我 基本 都 是 用 wikipedia 和 bing 查 英文 资料 ， 看 懂 之 后 再 到 
baidu 找 中 文 资料 ， 并 最 终 确定 译文 。 因 此 ， 可 能 会 有 不 准确 的 情况 ， 如 果 您 发 现 
了 ， 请 及 时 通过 邮件 告诉 我 ， 万 分 感谢 。 

此 外 ， 我 必须 感谢 华章 公司 的 编辑 们 。 非 常 感谢 他 们 能 够 给 我 这 样 的 机 会 ， 也 非常 感谢 他 

们 在 整个 过 程 中 给 予 我 的 各 种 支持 和 理解 。 希 望 以 后 还 能 有 更 加 愉快 的 合作 。 

本 书 大 部 分 内 容 的 翻译 工作 以 及 全 书 的 统 稿 工作 由 我 完成 ， 参 与 本 书 翻译 校对 工作 的 还 有 

黄 惠 庄 、 卢 彦 良 、 蒲 巧 惠 、 陈 丽 丽 、 胡 元 江 、 张 杨 、 赵 杰 、 吴 研 、 郭 敏 、 林 丹 、 王 跃 等 。 

由 于 译 者 水 平 有 限 ， 书 中 肯定 会 存在 一 些 错误 或 不 妥 之 处 ， 因 此 ， 在 阅读 过 程 中 发 现 有 任 

何 问题 ， 请 随时 联系 我 们 (tonytang1999@126.com) 或 机 械 工业 出 版 社 ， 我 们 将 及 时 更 新 

本 书 的 勘误 表 。 当 然 ， 也 非常 欢迎 大 家 对 本 书 提出 宝贵 的 意见 和 建议 。 

唐 学 手 
2013 年 6 月 于 广州 


编 注 1: 本 书 已 由 机 械 工业 出 版 社 出 版 ，ISBN:978-7-111-36478-8。 
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针对 科学 计算 领域 的 Python 开 源 库 生态 系统 在 过 去 10 年 中 得 到 了 飞速 发 展 。2011 年 底 ， 
我 深 深 地 感觉 到 ， 由 于 缺乏 集中 的 学 习 资 源 ， 刚 刚 接触 数据 分 析 和 统计 应 用 的 Python 程 
序 员 举 步 维 艰 。 针 对 数据 分 析 的 关键 项 目 (尤其 是 NumPy、matplotlib 和 pandas) 已 经 很 
成 熟 了 ,也 就 是 说 ， 写 一 本 专门 介绍 它们 的 图 书 貌 似 不 会 很 快 过 时 。 因 此 ， 我 下 定 决心 
要 开始 这 样 的 一 个 写作 项 目 。 我 在 2007 年 刚 开始 用 Python 进行 数据 分 析 工 作 时 就 希望 能 
够 得 到 这 样 一 本 书 。 和 希望 你 也 能 觉得 本 书 有 用 ， 同 时 也 希望 你 能 将 书 中 介绍 的 那些 工具 
高 效 地 运用 到 实际 工作 中 去 。 


本 书 的 约定 
本 书 使 用 了 以 下 排版 约定 : 
斜体 (Italic) 
用 于 新 术语 、URL、 电 子 邮件 地 址 、 文 件 名 与 文件 扩展 名 。 


等 宽 字体 (Constant width) 
用 于 表明 程序 清单 ， 以 及 在 段落 中 引用 的 程序 中 的 元 素 ， 如 变量 、 函 数 名 、 数 据 
库 、 数 据 类 型 、 环 境 变量 、 语 句 、 关 键 字 等 。 
等 宽 粗 体 (Constant width bold) 
用 于 表明 命令 ， 或 者 需要 读者 逐 字 输入 的 文本 内 容 。 
等 宽 斜 体 (Constant width italic) 
用 于 表示 需要 使 用 用 户 提供 的 值 或 者 由 上 下 文 决定 的 值 来 替代 的 文本 内 容 。 





注意 :代表 一 个 技巧 、 建 议 或 一 般 性 说 明 。 








警告 ， 代表 一 个 警告 或 注意 事项 。 





示例 代码 的 使 用 


本 书 提供 代码 的 目的 是 帮 你 快速 完成 工作 。 一 般 情况 下 ， 你 可 以 在 你 的 程序 或 文档 中 
使 用 本 书 中 的 代码 ， 而 不 必 取 得 我 们 的 许可 ， 除 非 你 想 复制 书 中 很 大 一 部 分 代码 。 例 
如 ， 你 在 编写 程序 时 ， 用 到 了 本 书 中 的 几 个 代码 片段 ， 这 不 必 取 得 我 们 的 许可 。 但 若 将 
O'Reilly 图 书 中 的 代码 制作 成 光盘 并 进行 出 售 或 传播 ， 则 需 获得 我 们 的 许可 。 引 用 示例 
代码 或 书 中 内 容 来 解答 问题 无 需 许 可 。 将 书 中 很 大 一 部 分 的 示例 代码 用 于 你 个 人 的 产品 
文档 ， 这 需要 我 们 的 许可 。 


如 果 你 引用 了 本 书 的 内 容 并 标明 版 权 归 属 声 明 ， 我 们 对 此 表示 感谢 ,但 这 不 是 必需 
的 。 版 权 归属 声明 通常 包括 : 标题 、 作 者 、 出 版 社 和 ISBN 号 ， 例 如 : “Python for 
Data Analysis by William Wesley McKinney (OReilly). Copyright 2013 William Wesley 
McKinney, 978-1-449-31979-3”。 


如 果 你 认为 你 对 示例 代码 的 使 用 已 经 超出 上 述 范围 ,或 者 你 对 是 否 需要 获得 示例 代码 的 
授权 还 不 清楚 ， 请 随时 联系 我 们 : permissions@oreilly.com。 


有 关 本 书 的 任何 建议 和 疑问 ， 可 以 通过 下 列 方式 与 我 们 取得 联系 : 
美国 : 
OReilly Media, Inc. 


1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 ， 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京 ) 有 限 公司 


我 们 会 在 本 书 的 网 页 中 列 出 勘误 表 、 示 例 和 其 他 信息 。 可 以 通过 hitp://oreil.ly/Python_ 
Jor_Data_Analysis 访 问 该 页 面 。 


要 评论 或 询问 本 书 的 技术 问题 ， 请 发 送 电子 邮件 到 : 


bookquestions@oreilly.com 





想 了 解 关于 O"Reilly 图 书 、 课 程 、 会 议和 新 闻 的 更 多 信息 ， 请 访问 以 下 网 站 : 


hittp://www.oreilly.com.cn 


hittp://www.oreilly.com 
还 可 以 通过 以 下 网 站 关注 我 们 : 
我 们 在 Facebook 上 的 主页 : http://facebook.com/oreilly 
我 们 在 Twitter 上 的 主页 : http://rwitter.com/oreillymedia 


我 们 在 YouTube 上 的 主页 : http://www.youtube.com/oreillymedia 
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本 书 主要 内 容 


本 书 讲 的 是 利用 Python 进行 数据 控制 、 处 理 、 整 理 、 分 析 等 方面 的 具体 细节 和 基本 要 
点 。 同 时 ， 它 也 是 利用 Python 进行 科学 计算 的 实用 指南 (专门 针对 数据 密集 型 应 用 ) 。 
本 书 重点 介绍 了 用 于 高 效 解决 各 种 数据 分 析 问题 的 Python 语言 和 库 。 本 书 没有 闸 述 如 何 
利用 Python 实现 具体 的 分 析 方 法 。 


当 书 中 出 现 “ 数 据 ” 时 ， 究 竟 指 的 是 什么 呢 ? 主要 指 的 是 结构 化 数据 (structured 
data) ， 这 个 故意 含糊 其 辞 的 术语 代 指 了 所 有 通用 格式 的 数据 ， 例 如 : 
。 “多维 数组 (矩阵 ) 。 


。 ”表格 型 数据 ， 其 中 各 列 可 能 是 不 同 的 类 型 (字符 串 、 数 值 、 日 期 等 ) 。 比 如 保存 在 
关系 型 数据 库 中 或 以 制 表 符 /逗号 为 分 隔 符 的 文本 文件 中 的 那些 数据 。 

。 ”通过 关键 列 (对 于 SQL 用 户 而 言 ， 就 是 主键 和 外 键 ) 相互 联系 的 多 个 表 。 

。 ”间隔 平均 或 不 平均 的 时 间 序 列 。 


这 绝 不 是 一 个 完整 的 列表 。 大 部 分 数据 集 都 能 被 转化 为 更 加 适合 分 析 和 建 模 的 结构 化 形 
式 ， 虽 然 有 时 这 并 不 是 很 明显 。 如 果 不 行 的 话 ， 也 可 以 将 数据 集 的 特征 提取 为 某 种 结构 
化 形式 。 例 如 ， 一 组 新 闻 文 章 可 以 被 处 理 为 一 张 词 频 表 ， 而 这 张 词 频 表 就 可 以 用 于 情感 
分 析 。 


大 部 分 电子 表格 软件 (比如 Microsoft Excel， 它 可 能 是 世界 上 使 用 最 广泛 的 数据 分 析 工 
具 了 ) 的 用 户 不 会 对 此 类 数据 感到 陌生 。 


为 什么 要 使 用 Python 进行 数据 分 析 


许 许 多 多 的 人 (包括 我 自己 ) 都 很 容易 爱 上 Python 这 门 语言 。 自 从 1991 年 诞生 以 来 ， 
Python 现在 已 经 成 为 最 受 欢迎 的 动态 编程 语言 之 一 ， 其 他 还 有 Perl、Ruby 等 。 由 于 拥有 
大 量 的 Web 框 架 (比如 Rails (Ruby) 和 Django (Python) ) ， 最 近 几 年 非常 流行 使 用 
Python 和 Ruby 进 行 网 站 建设 工作 。 这 些 语言 常 被 称 作 脚 本 (scripting) 语言 ， 因 为 它们 
可 以 用 于 编写 简短 而 粗糙 的 小 程序 (也 就 是 脚本 ) 。 我 个 人 并 不 喜欢 “脚本 这 
个 术语 ， 因 为 它 好 像 在 说 这 些 语言 无 法 用 于 构建 严谨 的 软件 。 在 众多 解释 型 语言 中 ， 
Python 最 大 的 特点 是 拥有 一 个 巨大 而 活跃 的 科学 计算 (scientific computing) 社区 。 进 入 
21 世 纪 以 来 ， 在 行业 应 用 和 学 术 研究 中 采用 Python 进 行 科学 计算 的 势头 越 来 越 猛 。 


在 数据 分 析 和 交互 、 探 索性 计算 以 及 数据 可 视 化 等 方面 ，Python 将 不 可 避免 地 接近 于 其 
他 开源 和 商业 的 领域 特定 编程 语言 /工具 ， 如 R、MATLAB、SAS、Stata 等 。 近 年 来 ， 由 
于 Python 有 不 断 改良 的 库 (主要 是 pandas) ,使 其 成 为 数据 处 理 任 务 的 一 大 替代 方案 。 
结合 其 在 通用 编程 方面 的 强大 实力 ， 我 们 完全 可 以 只 使 用 Python 这 一 种 语言 去 构建 以 数 
据 为 中 心 的 应 用 程序 。 














把 Python 当 做 粘 合 剂 

作为 一 个 科学 计算 平台 ，Python 的 成 功 部 分 源 于 其 能 够 轻松 地 集成 C、C++ 以 及 Fortran 
代码 。 大 部 分 现代 计算 环境 都 利用 了 一 些 Fortran 和 C 库 来 实现 线性 代数 、 优 选 、 积 分 、 
快速 传 里 叶 变 换 以 及 其 他 诸如 此 类 的 算法 。 许 多 企业 和 国家 实验 室 也 利用 Python 来 “ 粘 
合 ” 那 些 已 经 用 了 30 多 年 的 遗留 软件 系统 。 


大 多 数 软件 都 是 由 两 部 分 代码 组 成 的 :少量 需要 占用 大 部 分 执行 时 间 的 代码 ， 以 及 大 量 
不 经 常 执行 的 “ 粘 合剂 代码 ”。 粘 合剂 代码 的 执行 时 间 通常 是 微不足道 的 。 开 发 人 员 的 
精力 几乎 都 是 花 在 优化 计算 瓶颈 上 面 的 ， 有 时 更 是 直接 转 用 更 低级 的 语言 (比如 C) 。 


最 近 这 几 年 ，Cython 项 目 (http://cython.org) 已 经 成 为 Python 领域 中 创建 编译 型 扩展 以 
及 对 接 C/C++ 代码 的 一 大 途径 。 


解决 “两 种 语言 ”问题 

很 多 组 织 通常 都 会 用 一 种 类 似 于 领域 特定 的 计算 语言 (如 MATLAB 和 R) 对 新 的 想法 进 
行 研究 、 原 型 构建 和 测试 ， 然 后 再 将 这 些 想 法 移植 到 某 个 更 大 的 生产 系统 中 去 (可 能 是 
用 Java、C# 或 C++ 编写 的 ) 。 人 们 逐 汤 意 识 到 ，Python 不 仅 适用 于 研究 和 原型 构建 ， 同 
时 也 适用 于 构建 生产 系统 。 我 相信 越 来 越 多 的 企业 也 会 这 样 看 ， 因 为 研究 人 员 和 工程 技 
术 人 员 使 用 同一 种 编程 工具 将 会 给 企业 带 来 非常 显著 的 组 织 效 益 。 
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为 什么 不 选 Python 
虽然 Python 非常 适合 构建 计算 密集 型 科学 应 用 程序 以 及 几乎 各 种 各 样 的 通用 系统 ， 但 它 
对 于 不 少 应 用 场景 仍然 力 有 不 还 。 


由 于 Python 是 一 种 解释 型 编程 语言 ， 因 此 大 部 分 Python 代码 都 要 比 用 编译 型 语言 (比如 
Java 和 C++) 编写 的 代码 运行 慢 得 多 。 由 于 程序 员 的 时 间 通 常 都 比 CPU 时 间 值 钱 ， 因 此 
许多 人 也 愿意 在 这 里 做 一 些 权衡 。 但 是 ， 在 那些 要 求 延迟 非常 小 的 应 用 程序 中 (例如 高 
频 交易 系统 ) ， 为 了 尽 最 大 可 能 地 优化 性 能 ， 耗 费时 间 使 用 诸如 C++ 这 样 更 低级 、 更 低 
生产 率 的 语言 进行 编程 也 是 值得 的 。 


对 于 高 并 发 、 多 线程 的 应 用 程序 而 言 (尤其 是 拥有 许多 计算 密集 型 线程 的 应 用 程序 ) ， 
Python 并 不 是 一 种 理想 的 编程 语言 。 这 是 因为 Python 有 一 个 叫做 全 局 解释 器 锁 (Global 
Interpreter Lock，GIL) 的 东西 ， 这 是 一 种 防止 解释 器 同时 执行 多 条 Python 字 节 码 指令 的 
机 制 。 有关“ 为 什么 会 存在 GIL” 的 技术 性 原因 超出 了 本 书 的 范围 ， 但 是 就 目前 来 看 ， 
GIL 并 不 会 在 短 时 间 内 消失 。 虽 然 很 多 大 数据 处 理应 用 程序 为 了 能 在 较 短 的 时 间 内 完成 
数据 集 的 处 理工 作 都 需要 运行 在 计算 机 集群 上 ， 但 是 仍然 有 一 些 情况 需要 用 单 进程 多 线 
程 系 统 来 解决 。 





这 并 不 是 说 Python 不 能 执行 真正 的 多 线程 并 行 代 码 ， 只 不 过 这 些 代码 不 能 在 单个 Python 
进程 中 执行 而 已 。 比 如 说 ，Cython 项 目 可 以 集成 OpenMP (一 个 用 于 并 行 计算 的 C 框 架 ) 
以 实现 并 行 处 理 循环 进而 大 幅度 提高 数值 算法 的 速度 。 


重要 的 Python 库 


考虑 到 那些 还 不 太 了 解 Python 科学 计算 生态 系统 和 库 的 读者 ， 下 面 我 先 对 各 个 库 做 一 个 
简单 的 介绍 。 


NumPy 

NumPy (Numerical Python 的 简称 ) 是 Python 科学 计算 的 基础 包 。 本 书 大 部 分 内 容 都 基 
于 NumPy 以 及 构建 于 其 上 的 库 。 它 提供 了 以 下 功能 (不 限于 此 ) : 

。 ”快速 高 效 的 多 维 数组 对 象 ndarray。 

。 ”用 于 对 数组 执行 元 素 级 计算 以 及 直接 对 数组 执行 数学 运算 的 函数 。 

。 ”用 于 读 写 硬盘 上 基于 数组 的 数据 集 的 工具 。 

。 ”线性 代数 运算 、 传 里 叶 变 换 ， 以 及 随机 数 生成 。 

。 用 于 将 C、C++、Fortran 代 码 集成 到 Python 的 工具 。 
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除了 为 Python 提供 快速 的 数组 处 理 能 力 ，NumPy 在 数据 分 析 方面 还 有 另外 一 个 主要 作 
用 ， 即 作为 在 算法 之 间 传递 数据 的 容器 。 对 于 数值 型 数据 ，NumPy 数 组 在 存储 和 处 理 数 
据 时 要 比 内置 的 Python 数据 结构 高 效 得 多 。 此 外 ， 由 低级 语言 (比如 C 和 Fortran) 编写 
的 库 可 以 直接 操作 NumPy 数 组 中 的 数据 ， 无 需 进行 任何 数据 复制 工作 。 


pandas 


pandas 提 供 了 使 我 们 能 够 快速 便捷 地 处 理 结构 化 数据 的 大 量 数据 结构 和 函数 。 你 很 快 就 
会 发 现 ， 它 是 使 Python 成 为 强大 而 高 效 的 数据 分 析 环 境 的 重要 因素 之 一 。 本 书 用 得 最 多 
的 pandas 对 象 是 DataFrame， 它 是 一 个 面向 列 (column-oriented) 的 二 维 表 结构 ， 且 含有 
行 标 和 列 标 : 


>>> frame 

total bill tip sex smoker day timesize 
1 16.99 1.01 Female No Sun Dinner 2 
2 10.34 1.66 Male No Sun Dinner 3 
事 21.01 3.5 Male No Sun Dinner 3 
4 23.68 3.31 Male No Sun Dinner 2 
5 24.59 3.61 Female No Sun Dinner 4 
6 25.29 4.71 Male No Sun Dinner 4 
7 8.77 2 Male No Sun Dinner 2 
8 26.88 3.12 Male No Sun Dinner 4 
9 15.04 1.96 Male No Sun Dinner 2 
10 14.78 3.23 Male No Sun Dinner 2 


pandas 兼 具 NumPy 高 性 能 的 数组 计算 功能 以 及 电子 表格 和 关系 型 数据 库 (如 SQL) 灵活 
的 数据 处 理 功 能 。 它 提供 了 复杂 精细 的 索引 功能 ， 以 便 更 为 便捷 地 完成 重 塑 、 切 片 和 切 
块 、 聚 合 以 及 选取 数据 子 集 等 操作 。pandas 将 是 我 在 本 书 中 使 用 的 主要 工具 。 


对 于 金融 行业 的 用 户 ，pandas 提 供 了 大 量 适 用 于 金融 数据 的 高 性 能 时 间 序列 功能 和 工 
具 。 事 实 上 ， 我 一 开始 就 是 想 把 pandas 设 计 为 一 款 适用 于 金融 数据 分 析 应 用 的 工具 。 


对 于 使 用 R 语 言 进行 统计 计算 的 用 户 ， 肯 定 不 会 对 DataFrame 这 个 名 字 感 到 陌生 ， 因 为 
它 源 自 于 R 的 data.frame 对 象 。 但 是 这 两 个 对 象 并 不 相同 。R 的 data.frame 对 象 所 提供 的 
功能 只 是 DataFrame 对 象 所 提供 的 功能 的 一 个 子 集 。 虽 然 本 书 讲 的 是 Python， 但 我 偶尔 
还 是 会 用 R 做 对 比 ， 因 为 它 毕竟 是 最 流行 的 开源 数据 分 析 环 境 ， 而 且 很 多 读者 都 对 它 很 
熟悉 。 





pandas 这 个 名 字 本 身 源 自 于 panel data (面板 数据 ， 这 是 计量 经 济 学 中 关于 多 维 结构 化 数 
据 集 的 一 个 术语 ) 以 及 Python data analysis (Python 数据 分 析 ) 。 
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matplotlib 


matplotlib 是 最 流行 的 用 于 绘制 数据 图 表 的 Python 库 。 它 最 初 由 John D. Hunter (JDH) 
创建 ， 目 前 由 一 个 庞大 的 开发 人 员 团 队 维护 。 它 非常 适合 创建 出 版 物 上 用 的 图 表 。 它 跟 
IPython (马上 就 会 讲 到 ) 结合 得 很 好 ， 因 而 提供 了 一 种 非常 好 用 的 交互 式 数据 绘图 环 
境 。 绘 制 的 图 表 也 是 交互 式 的 ， 你 可 以 利用 绘图 窗口 中 的 工具 栏 放 大 图 表 中 的 某 个 区 域 
或 对 整个 图 表 进行 平移 浏览 。 





IPython 


IPython 是 Python 科学 计算 标准 工具 集 的 组 成 部 分 ， 它 将 其 他 所 有 的 东西 联系 到 了 一 起 。 
它 为 交互 式 和 探索 式 计算 提供 了 一 个 强健 而 高 效 的 环境 。 它 是 一 个 增强 的 Python shell， 
目的 是 提高 编写 、 测 试 、 调 试 Python 代码 的 速度 。 它 主要 用 于 交互 式 数 据 处 理 和 利用 
matplotlib 对 数据 进行 可 视 化 处 理 。 我 在 用 Python 编程 时 ， 经 常会 用 到 IPython， 包 括 运 
行 、 调 试 和 测试 代码 。 


除 标准 的 基于 终端 的 IPython shell 外 ， 该 项 目 还 提供 了 : 
， 一 个 类 似 于 Mathematica 的 HTML 笔 记 本 (通过 Web 浏 览 器 连接 IPython， 稍 后 将 对 
此 进行 详细 介绍 


. -个 基于 Qt 框架 的 GUI 控制 台 ， 其 中 含有 绘图 、 多 行 编辑 以 及 语法 高 亮 显示 等 
功能 。 


。 ”用 于 交互 式 并 行 和 分 布 式 计算 的 基础 架构 。 


我 将 在 一 章 中 专门 讲解 IPython， 详 细 地 介绍 其 大 部 分 功能 。 强 烈 建 议 在 阅读 本 书 的 过 程 
中 使 用 IPython。 


Scipy 

SciPy 是 一 组 专门 解决 科学 计算 中 各 种 标准 问题 域 的 包 的 集合 ， 主 要 包括 下 面 这 些 包 : 
。 ”scipy.integrate: 数值 积分 例 程 和 微分 方程 求解 器 。 

。 scipy.linalg: 扩展 了 由 numpy.linal8g 提 供 的 线性 代数 例 程 和 和 矩阵 分 解 功能 。 

。 ”scipy.optimize: 函数 优化 器 (最 小 化 器 ) 以 及 根 查找 算法 。 

。 “scipy.signal: 信号 处 理工 具 。 

。 “scipy.sparse: 稀疏 矩阵 和 稀疏 线性 系统 求解 器 。 
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。 “scipy.special: SPECFUN (这 是 一 个 实现 了 许多 常用 数学 函数 (如 伽 玛 函数 ) 的 
Fortran 库 ) 的 包装 器 。 


。 scipy.stats: 标准 连续 和 离散 概率 分 布 (如 密度 函数 、 采 样 器 、 连 续 分 布 函数 
等 ) 、 各 种 统计 检验 方法 ， 以 及 更 好 的 描述 统计 法 。 
。 “scipy.weave: 利用 内 联 C++ 代码 加 速 数 组 计算 的 工具 。 


NumPy 跟 SciPy 的 有 机 结合 完全 可 以 替代 MATLAB 的 计算 功能 (包括 其 插件 工具 箱 ) 。 


安装 和 设置 

由 于 人 们 用 Python 所 做 的 事情 不 同 ， 所 以 没有 一 个 普 适 的 Python 及 其 插件 包 的 安装 方 
案 。 由 于 许多 读者 的 Python 科学 计算 环境 都 不 能 完全 满足 本 书 的 需要 ， 所 以 接 下 来 我 将 
详细 介绍 各 个 操作 系统 上 的 安装 方法 。 我 建议 使 用 下 列 Python 安装 包 之 一 : 


» Enthought Python Distribution 评 广 !， 来 自 Enthought (htip://continumm.io/ 


downloads) 的 面向 科学 计算 的 Python 安装 包 。 包 括 EPDFree (免费 的 基本 版 ， 带 
有 NumPy、SciPy、matplotlib、Chaco 以 及 IPython) 和 EPD Full (完整 版 ， 含 有 100 
多 个 针对 各 种 领域 的 科学 计算 包 ) 。EPD Full 对 高 校 免 费 ， 非 高 校 用 户 需 要 缴纳 
年 费 。 

。 ”Python(x,y) (htip://pythonxy.googlecode.com) : Windows 平 台 上 免费 的 Python 科学 
计算 安装 包 。 

我 将 用 EPDFree 来 说 明 安装 过 程 ， 当 然 如 果 有 需要 的 话 ， 你 也 可 以 选择 其 他 产品 。 编 写 

本 书 时 ，EPD 用 的 是 Python 2.7， 今 后 可 能 会 有 些 变动 。 安 装 完毕 之 后 ， 你 将 可 以 用 到 下 

面 这 些 包 : 

。 “Python 科学 计算 基础 库 : NumPy、SciPy、matplotlib 以 及 IPython。 这 些 都 包含 在 
EPDFree 中 了 。 

。 “IPython Notebook 依 赖 项 : tornado 和 pyzmq。 这 些 也 都 包含 在 EPDFree 中 了 。 

。 ”pandas (0.8.2 版 或 更 高 版 本 ) 。 

在 阅读 本 书 的 过 程 中 ， 你 可 能 还 需要 安装 : statsmodels、PyTables、PyQt (PySide 也 

行 ) 、xlrd、lxml、basemap、pymongo 以 及 requests 等 (它们 被 用 在 不 同 的 示例 中 ) 。 现 

在 暂时 还 不 需要 安装 这 些 库 ， 我 建议 你 在 需要 的 时 候 再 安装 。 例 如 ， 在 OS X 或 Linux 上 


译注 1: 已 经 更 名 为 Enthought Canopy。EPDFree 对 应 的 是 Enthought Canopy Express。 相 比 来 说 
EPDFree 自 然 更 好 用 ， 不 过 为 了 保证 阅读 本 书 时 不 遇 到 麻烦 ， 建 议 按照 本 书 介 绍 法 操作 。 
(其 实 就 算 按 照 书 上 的 说 明 操 作 ， 一 样 会 遇 到 不 少 麻烦 ， 我 会 尽量 给 出 说 明 。) 





10 | 第 1 章 


安装 PyQt 或 PyTables 可 能 会 很 困难 。 目 前 最 重要 的 事情 是 先 用 EPDFree 和 pandas 这 种 最 
小 配置 运行 起 来 再 说 。 


关于 各 个 Python 库 及 其 安装 文件 和 帮助 信息 ， 请 访问 Python Package Index ( 即 PyPI， 
http://pypipython.org) 。 你 还 可 以 在 这 里 找到 不 少 新 的 Python 库 。 





注意 ， 为 了 简单 起 见 ， 我 将 不 会 讨论 pip 评 计 和 virtualenv 这 类 比较 复杂 的 环境 管理 工具 。 网 上 可 以 
找到 许多 介绍 这 些 工具 的 优秀 教程。 








敬告， 有些 用 户 可 能 会 对 诸如 IronPython，Jython、PyPy 之 关 的 Python 实现 感 兴趣 。 为 了 使 用 本 书 
所 介绍 的 那些 工具 ， (目前 ) 就 需要 使 用 基于 C 的 标准 Python 解释 器 (也 就 是 CPython) 。 





Windows 


先 从 htip://www.enthought.com 下 载 EPDFree 的 安装 包 ， 它 可 能 是 一 个 名 字 类 似 于 epd_ 
free-7.3-1-win-x86.msi 的 MSI 安 装 包 形 归 。 运 行 该 安装 包 并 接受 默认 的 安装 位 置 C:\ 
Python27。 如 果 你 之 前 在 这 里 安装 过 Python， 可 能 需要 先 将 其 删除 (可 以 手工 删除 ， 也 
可 以 使 用 控制 面板 中 的 “添加 /或 删除 程序 ”功能 ) 。 


接 下 来 ， 你 需要 验证 是 否 已 经 成 功 将 Python 添加 到 系统 路 径 ， 并 且 没 有 跟 早 期 安装 的 
Python 版 本 发 生 冲 突 。 首 先 ， 打 开 命令 提示 符 (打开 “开始 ”菜单 ， 启 动 “命令 提示 
符 ” 应 用 程序 ， 即 cmd.exe) 。 输 入 python 尝 试 启动 Python 解释 器 。 你 应 该 可 以 看 到 与 已 
安装 的 EPDFree 版 本 相 匹配 的 一 段 消息 : 
C:\Users\Wes>python 
Python 2.7.3 |EPD_free 7.3-1 (32-bit)| (default, Apr 12 2012, 14:30:37) on win32 
Type “credits", "demo" or "enthought” for more information. 
>>y 
如 果 你 看 到 的 是 其 他 版 本 的 EPD 信 息 或 根本 什么 也 看 不 到 ， 那 就 需要 清理 Windows 环 境 
变量 。 在 Windows 7 上 ， 可 以 在 程序 搜索 框 中 输入 “environment variables”， 然 后 编辑 
你 的 账户 下 的 环境 变量 。 在 Windows XP 上 ， 需 要 进入 “控制 面板 ”一 “系统 ”一 “高 
级 ”一 “ 环境 变量 ”。 在 弹出 窗口 中 找到 Path 变 量 。 它 需要 含有 下 面 这 两 个 以 分 号 隔 开 
的 目录 路 径 : 
译注 2。 虽然 安装 过 程 不 大 轻松 ， 但 还 是 建议 后 面 装 -一 下 ， 回 为 它 可 以 使 你 在 安装 那些 库 的 时 候 更 
轻松 愉快。 
译注 3; 由 于 软件 版 本 更 新 较 快 ， 所 以 建议 到 网 上 找 一 个 一 模 一 样 的 安装 包 ， 不 然 有 些 例子 的 结果 
可 能 会 艰 书 上 介绍 的 不 一 样 。 
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C:\Python27;C:\Python27\Scripts 


如 果 你 之 前 安装 了 其 他 版 本 的 Python， 那 就 需要 删除 系统 和 用 户 Path 变 量 中 与 之 相关 的 
一 切 路 径 。 修 改 路 径 之 后 ， 需 要 重启 命令 提示 符 才 能 使 修改 生效 。 


能 够 在 命令 提示 符 中 成 功 启动 Python 之 后 ， 就 该 安装 pandas 了 。 最 简单 的 办 法 就 是 直接 
到 http://pypi.python.org/pypilpandas 下 载 合适 的 二 进 制 安装 包 。 对 于 EPDFree， 应 该 选择 
pandas-0.9.0.win32-py2.7.exe。 将 其 安装 好 之 后 ， 接 下 来 启动 IPython 来 验证 一 下 是 不 是 
万 事 俱 备 了 : 引入 pandas， 然 后 绘制 一 个 简单 的 matplotlib 图 形 。 

C:\Users\Wes>ipython --pylab 


Python 2.7.3 |EPD_free 7.3-1 (32-bit)| 

Type "copyright", "credits" or "license”for more information. 
Ipython 0.12.1 -- An enhanced Interactive python. 

? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

help -》pPython's own help system. 

object? -> Details about ‘object', use “object??”for extra details. 


Welcome to pylab, a matplotlib-based Python environment [backend: WXAgg]. For more 
information，type “help(pylab)'。 


In [1]: import pandas 

In [2]: plot(arange(10)) 
如 果 成 功 ， 就 不 会 出 现 错误 信息 ， 而 且 会 弹出 一 个 绘图 窗口 。 还 可 以 输入 下 列 指令 评 让 4 
来 检查 IPython HTML notebook 是 否 安装 成 功 : 


$ ipython notebook --pylab=inline 





警告 ， 如 果 你 是 在 Windows 上 使 用 IPython notebook 应 用 程序 而 且 通 常 使 用 的 是 Internet Explorer 的 
话 ， 那 你 可 能 需要 改 用 Mozilla Firefox 或 Google Chrome 了 译注 5 。 





Windows 上 的 EPDFree 只 有 32 位 版 本 。 如 果 需 要 使 用 64 位 版 本 ， 最 简单 的 办 法 就 是 直 

接 使 用 EPD Full 诗 汪 。 如 果 你 不 想 购买 EPD 订 阅 且 愿意 自己 动手 一 步 步 安装 ， 可 以 试 

译注 4 如 果 只 用 过 Windows， 要 注意 前 面 的 “$”， 这 是 Linux 或 UNIX 或 Mac 的 默认 命令 提示 符 。 
本 书 应 该 就 是 用 Mac 测 试 代码 的 ， 所 以 这 样 的 提示 符 不 少 ,后 面 代码 中 还 有 很 多 ， 请 读者 
注意 。 





译注 5: 为 什么 ? 难道 作者 以 为 全 世界 人 民 都 还 在 用 IE6 不 成 ? 译 者 使 用 IE9/ITE10 均 无 压力 完成 。 
译注 6: 还 是 建议 使 用 32 位 版 本 的 ， 最 主要 的 原因 仍然 是 “ 跟 原 书 一 致 ， 以 免 抓 狂 ”。 
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试 由 加 州 大 学 欧文 分 校 的 Christoph Gohlke 提 供 的 非 官方 安装 包 (hiip://www.lfd.uci. 
edu/~gohlke/pythonlibs/) ， 它 既 有 32 位 版 也 有 64 位 版 ， 且 包含 本 书 所 需 的 所 有 库 。 


苹果 OS X 

在 OS X 上 ， 首 先 需要 安装 Xcode， 它 含有 苹果 的 软件 开发 工具 套件 。 我 们 所 需 的 部 分 是 
gcc C 和 C++ 编译 器 。Xcode 安 装 包 可 以 在 随 计算 机 发 布 的 OS X 安 装 光盘 中 找到 ， 也 可 以 
直接 从 苹果 公司 的 网 站 上 下 载 。 


装 好 Xcode 之 后 ， 到 “Applications 一 Utilities” 去 启动 终端 (Terminal.app) 。 输 入 
gcc 并 按 回 车 键 。 你 将 会 看 到 如 下 信息 : 


$ gcc 


i686-apple-darwin10-gcc-4.2 no input files 





现在 就 该 安装 EPDFree 了。 下载 一 个 名 为 epd_free-7.3-1-macosx-i386.dmg 的 磁盘 镜像 
文件 。 双 击 该 ,dmg 文 件 以 将 其 挂 载 到 系统 ， 然 后 双击 其 中 的 .mpkg 文 件 来 运行 安装 程序 。 


安装 文件 启动 之 后 ， 会 自动 将 EPDFree 可 执行 文件 的 路 径 添加 到 你 的 .bash_profile 文 件 
中 。 该 文件 位 于 /Users/your_uname/ .bash_profile: 


# Setting PATH for EPD_free-7.3-1 
PATH="/Library/Frameworks/Python. framework/Versions/Current/bin:${PATH}" 
export PATH 


如 果 在 后 续 步 骤 中 遇 到 任何 问题 ， 首 先 应 该 检查 一 下 你 的 .bash_profile， 看 看 是 否 需 要 
将 上 面 那 个 目录 添加 进去 。 


现在 就 该 安装 pandas 了。 在 终端 中 执行 下 面 这 条 命令 : 


$ sudo easy_install pandas 

Searching for pandas 

Reading http://pypi.python.org/simple/pandas/ 

Reading http://pandas.pydata.org 

Reading http://pandas.sourceforge.net 

Best match: pandas 0.9.0 

Downloading http://pypi.python.org/packages/source/p/pandas/pandas-0.9.0.2ip 
Processing pandas-0.9.0.zip 

Writing /tmp/easy_install-H5mIX6/pandas-0.9.0/setup.cfg 

Running pandas-0.9.0/setup.py -q bdist egg --dist-dir /tmp/easy_install-H5mIX6/ 
pandas-0.9.0/egg-dist-tmp-RhLGOz 

Adding pandas 0.9.0 to easy-install.pth file 


Installed /Library/Frameworks/Python. framework/Versions/7.3/1ib/python2.7/ 
site-packages/pandas-0.9.0-py2.7-macosx-10.5-i386.egg 
Processing dependencies for pandas 
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Finished processing dependencies for pandas 


为 了 验证 是 否 一 切 正常 ， 我 们 以 Pylab 模 式 启动 IPython， 然 后 尝试 加 载 pandas 并 绘制 一 
张 图 片 : 

$ ipython --pylab 

22:29 ~/VirtualBox VMs/WindowsXP $ ipython 


Python 2.7.3 |EPD free 7.3-1 (32-bit)| (default, Apr 12 2012, 11:28:34) 
Type “copyright", “credits" or “license” for more information. 
en 0.12.1 -- An enhanced Interactive Python. 
-> Introduction and overview of IPython's features. 
Mel -> Quick reference. 
help -> Python's own help system. 
object? -> Details about ‘object', use ‘object??' for extra details. 


Welcome to pylab, a matplotlib-based Python environment [backend: WXAgg]. 
For more information, type ‘help(pylab)'. 


In [1]: import pandas 
In [2]: plot(arange(10)) 


如 果 成 功 ， 将 会 弹出 一 个 绘图 窗口 ， 其 中 画 的 是 一 条 直线 。 


GNU/Linux 





注意 ， 有 些 (但 不 是 全 部 ) Linux 产 品 自 带 的 Python 包 版 本 较 新 ， 且 可 以 通过 内 置 的 包 管理 工 县 
(如 apt) 进行 安装 。 我 将 详细 讲解 EPDFree 的 安装 步骤 ， 因 为 它 在 不 同 的 Linux 发 行 版 之 间 
是 差不多 的 。 


对 于 不 同 的 Linux 产 品 ， 具 体 的 安装 过 程 会 有 一 些 不 同 ， 我 这 里 将 以 基于 Debian 的 GNU/ 
Linux 系 统 (如 Ubuntu 和 Mint) 为 例 来 进行 讲解 。 除 EPDFree 之 外 ， 共 他 的 安装 过 程 跟 
OS X 差 不 多 。 其 安装 包 是 一 个 只 能 在 终端 中 执行 的 shell 脚 本 。 根 据 系 统 是 32 位 还 是 64 
位 ， 需 要 相应 地 安装 x86 版 (32 位 ) 或 x86_64 版 (64 位) 。 然 后 你 将 会 得 到 一 个 名 为 
epd_free-7.3-1-rh5-x86_64.sh 的 文件 。 通 过 bash 执 行 该 脚本 即 可 开始 安装 : 


$ bash epd_free-7.3-1-rh5-x86_64.sh 
在 接受 了 许可 协议 之 后 ， 你 需要 选择 EPDFree 文 件 的 存放 位 置 。 我 建议 将 这 些 文件 安装 
在 你 的 home 目 录 中 ， 比 如 /home/wesm/epd (将 wesm 替 换 为 你 的 用 户 名 即 可 ) 。 


安装 完毕 之 后 ， 你 需要 将 EPDFree 的 bin 目 录 添 加 到 $pATH 变 量 中 去 。 如 果 你 用 的 是 bash 
shell (比如 Ubuntu 默认 用 的 就 是 这 个 ) ， 则 在 你 的 .bashrc 中 加 上 下 面 这 句 路 径 添 加 
指令 : 
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export PATH=/home/wesm/epd/bin:$PATH 


很 明显 ， 需 要 将 /home/we sm/epd/ 替 换 为 你 所 使 用 的 安装 目录 。 做 完 这 些 事情 之 后 ， 你 
可 以 启动 一 个 新 的 终端 进程 ， 也 可 以 通过 source ~/ .bashrc 重 启 你 的 .bashrc。 





接 下 来 还 需要 用 到 一 个 C 编 译 器 (比如 gcc) 。 许 多 Linux 产 品 都 含有 gcc， 但 有 些 则 没 
有 。 在 Debian 系 统 中 ， 可 以 执行 下 面 这 条 指令 来 安装 gcc: 


sudo apt-get install gcc 
如 果 在 命令 行 中 输入 gcc， 就 可 以 看 到 : 


$ gcc 
gcc: no input 人 es 


现在 可 以 安装 pandas 了 : 
$ easy_install pandas 


如 果 你 是 以 root 权 限 来 安装 EPDFree 的 ， 就 需要 在 命令 中 加 上 sudo 并 输入 sudo 或 root 密 
码 。 使 用 跟 OS X 相 同 的 检测 方式 即 可 验证 是 否 一 切 正常 。 


Python 2 和 Python 3 

Python 社区 正在 慢 慢 地 从 Python 2 系列 解释 器 过 渡 到 Python 3 系列 。 在 Python 3.0 问 世 以 
前 ， 所 有 的 Python 代码 都 是 向 后 兼容 的 。 为 了 让 Python 语言 更 加 先进 ，Python 社 区 认为 
作出 一 些 向 后 不 兼容 的 修改 是 必要 的 。 


本 书 是 基于 Python 2.7 编 写 的 ， 这 是 因为 大 部 分 Python 科学 计算 社区 还 没有 转向 Python 
3。 好 消息 是 ， 如 果 你 碰巧 正在 使 用 Python 3.2， 在 学 习 本 书 的 过 程 中 一 般 也 不 会 遇 到 什 
么 麻烦 。 


集成 开发 环境 (IDE) 

当 有 人 问 我 “你 的 标准 开发 环境 是 怎样 的 ”时 ， 我 几乎 总 是 回答 “IPython 外 加 一 个 文本 
编辑 器 ”。 我 通常 都 在 IPython 中 编写 和 调试 程序 ， 而 且 它 可 以 交互 式 地 处 理 数据 ， 并 通 
过 可 视 化 的 方式 验证 某 个 数据 操作 的 结果 是 否 正确 。 诸 如 pandas 和 NumPy 这 样 的 库 也 可 
以 轻松 便捷 地 在 这 个 shell 中 使 用 。 


但 是 相对 于 文本 编辑 器 ， 总 有 人 会 更 喜欢 [DE。 因 为 它们 提供 了 许多 不 错 的 “代码 智能 
化 ”功能 ， 比 如 自动 完成 以 及 快速 获取 函数 和 类 的 文档 等 。 你 可 以 试 试 下 面 这 些 : 


。 “Eclipse + PyDev 插 件 
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。 ”Python Tools for Visual Studio (针对 Windows 用 户 ) 
. PyCharm 

» Spyder 

. Komodo IDE 


社区 和 研讨 会 


除 搜索 引擎 之 外 ，Python 科 学 计算 邮件 列表 也 是 很 不 错 的 资源 ， 其 上 的 问题 儿 乎 都 会 有 

人 回答 。 可 以 看 看 下 面 这 些 : 

。 pydata: 这 是 一 个 Google Group 邮件 列表 ， 其 中 的 问题 都 是 Python 数据 分 析 和 
pandas 方 面 的 。 

。 ”pystatsmodels: 针对 与 statsmodels 和 pandas 相 关 的 问题 。 

。 ”numpy-discussion: 针对 与 NumPy 相 关 的 问题 。 

。 “scipy-user: 针对 与 SciPy 和 Python 科学 计算 相关 的 问题 。 


我 没有 给 出 具体 的 URL， 因 为 它们 经 常 在 变 。 通 过 搜索 引擎 即 可 轻松 地 找到 它们 。 


全 世界 每 年 都 会 召开 许多 针对 Python 程序 员 的 研讨 会 。PyCon 和 EuroPython 分 别 是 美国 
和 欧洲 最 主要 的 Python 研讨 会 。 在 阅读 本 书 之 后 ， 如 果 你 越 来 越 深入 地 用 Python 进行 
数据 分 析 ， 就 可 以 在 SciPy 和 EuroSciPy 这 两 个 面向 科学 计算 的 Python 研讨 会 上 找到 许多 
“ 臭 味 相投 的 同道 中 人 ”。 


使 用 本 书 


如 果 之 前 从 未 使 用 过 Python， 那 你 可 能 需要 先 看 看 本 书 最 后 的 附录 部 分 ， 那 是 一 个 讲解 
Python 的 语法 、 语 言 特性 以 及 内 置 数据 结构 (如 元 组 、 列 表 和 字典 等 ) 的 简单 教程 。 这 
部 分 内 容 可 以 看 做 本 书 其 他 内 容 的 预备 知识 。 


本 书 首先 讲解 的 是 IPython 环 境 ， 然 后 简单 地 介绍 了 NumPy 的 关键 特性 ，NumPy 其 他 的 
高 级 功能 则 在 本 书 最 后 一 章 讲解 。 然 后 我 介绍 了 pandas。 本 书 其 余部 分 则 介绍 了 综合 运 
用 pandas、NumPy 和 matplotlib (用 于 可 视 化 ) 进行 数据 分 析 的 相关 知识 。 我 尽量 以 增 量 
的 形式 组 织 各 种 材料 ， 但 偶尔 还 是 会 出 现 一 些 跨 章节 的 知识 点 。 


各 章 的 数据 文件 及 相关 材料 存放 在 GitHub 上 主考? 


评注 7， 拿 到 书 就 马上 去 下 载 ， 一 来 是 防止 链接 不 可 用 ， 二 来 是 数据 有 点 大 ， 宽 带 较 小 的 话 …… 
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http://github.com/pydata/pydata-book 


我 强烈 建议 你 下 载 这 些 数据 ， 然 后 用 各 章 所 介绍 的 工具 重 写 示例 代码 。 我 非常 欢迎 大 家 
为 本 书 的 git 库 提供 文稿 、 脚 本 、IPython 笔 记 本 以 及 其 他 各 种 有 用 的 资源 。 


代码 示例 
本 书 大 部 分 代码 示例 的 输入 形式 和 输出 结果 都 会 按照 其 在 [Python shell 中 执行 时 的 样子 进 
行 排版 


In [5]: code 
Out[5]: output 


有 时 ， 为 了 简洁 明了 ， 多 个 代码 示例 将 会 并 排 显示 。 这 些 代码 示例 应 该 从 左 到 右 进 行 阅 
读 ， 且 应 该 分 别 执行 。 


In [5]: code In [6]: code2 
Out[5]: output Out[6]: output2 
示例 数据 


各 章 的 示例 数据 都 存放 在 GitHub 上 :hrip://github.com/pydata/pydata-book。 下 载 这 些 数 
据 的 方法 有 二 : 使 用 gi 版 本 控制 命令 行程 序 ， 直 接 从 网 站 上 下 载 该 GitHub 库 的 zip 文 件 。 


为 了 让 所 有 示例 都 能 重 现 ， 我 尽量 使 其 包含 所 有 必需 的 东西 ， 但 仍然 可 能 会 有 一 些 错误 
或 遗漏 。 如 果 出 现 这 种 情况 的 话 ， 请 给 我 发 邮件 : wesmckinn@gmail .com。 


引入 惯例 
Python 社 区 已 经 广泛 接受 了 一 些 常用 模块 的 命名 惯例 : 


import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
也 就 是 说 ， 当 你 看 到 np.arange 时 ， 就 应 该 想到 它 引 用 的 是 NumPy 中 的 arange 函 数 。 这 样 
做 的 原因 是 : 在 Python 软 件 开 发 过 程 中 ， 不 建议 直接 引入 类 似 NumPy 这 种 大 型 库 的 全 部 
内 容 (from numpy import *) 。 


行 话 
由 于 你 可 能 不 太 熟 悉 书 中 使 用 的 一 些 有 关 编 程 和 数据 科学 方面 的 常用 术语 ， 所 以 我 在 这 
里 先 给 出 其 简单 定义 : 
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数据 规整 (Munge/Munging/Wrangling) 详 广 8 
指 的 是 将 非 结 构 化 和 (或 ) 散乱 数据 处 理 为 结构 化 或 整洁 形式 的 整个 过 程 。 这 几 个 
词 已 经 悄悄 成 为 当今 数据 黑客 们 的 行 话 了 。Munge 这 个 词 跟 Lunge 押 韵 。 
伪 码 (Pseudocode) 
算法 或 过 程 的 “代码 式 ” 描 述 ， 而 这 些 代码 本 身 并 不 是 实际 有 效 的 源 代码 。 
语法 糖 (Syntactic sugar) 
这 是 一 种 编程 语法 ， 它 并 不 会 带 来 新 的 特性 ， 但 却 能 使 代码 更 易 读 、 更 易 写 。 


如 果 没 有 那 一 大 帮 子 人 的 帮助 ， 我 想 我 是 写 不 出 这 本 书 的 。 


先 说 说 O'Reilly 的 工作 人 员 ， 我 非常 感谢 我 的 编辑 Meghan Blanchette 和 Julie Steele， 他 们 
在 整个 写作 过 程 中 给 予 了 我 大 量 的 指导 。Mike Loukides 在 本 书 的 提案 阶段 也 给 予 了 很 大 
的 帮助 。 


许多 人 向 我 提供 了 大 量 的 技术 评论 。 具 体 点 说 ，Martin Blais 和 Hugh Brown 帮 助 我 改进 了 
本 书 的 示例 、 简 洁 性 以 及 内 容 组 织 形式 。James Long、Drew Conway、Fernando Pérez、 

Brian Granger、 Thomas Kluyver、Adam Klein、Josh Klein、Chang She 以 及 Stéfan van 
der Walt 都 审阅 了 一 章 或 几 章 ， 从 多 个 角度 给 出 了 一 些 重要 的 反馈 。 


我 从 身边 和 数据 社区 中 的 好 友 那 里 得 到 了 关于 本 书 示 例 和 数据 集 的 大 量 灵感 ， Mike 
Dewar, Jeff Hammerbacher、 James Johndrow、 Kristian Lum、Adam Klein、Hilary 
Mason、Chang She 以 及 Ashley Williams。 


当然 我 还 要 感谢 开源 科学 计算 Python 社区 的 许多 大 佬 们 ， 是 他 们 建立 了 我 开发 工作 的 基 
础 ， 在 我 编写 本 书 时 也 给 予 了 不 少 的 鼓励 : IPython 核 心 团队 (Fernando Pérez、Brian 
Granger、Min Ragan-Kelly、Thomas Kluyver 等 ) 、John Hunter、Skipper Seabold、 
Travis Oliphant、Peter Wang、Eric Jones、Robert Kern、Josef Perktold4、Francesc 
Alted、Chris Fonnesbeck， 还 有 很 多 人 就 不 一 一 列举 了 。 另 外 还 有 许多 人 在 整个 过 程 中 
也 给 予 了 大 量 的 支持 、 建 议和 鼓励 : Drew Conway、Sean Taylor、Giuseppe Paleologo、 
Jared Lander、David Epstein、 John Krowas、 Joshua Bloom、Den Pilsworth、John Myles- 


White， 还 有 许多 我 都 已 经 不 记得 了 。 
还 要 感谢 我 整个 成 长 岁月 中 的 一 些 人 。 首 先 ， 我 原来 在 AQR 公 司 的 同事 们 ， 他 们 在 我 





译注 8: 本 来 想 不 翻 译 的 ， 但 是 原文 中 这 几 个 到 处 混用 ， 摘 得 我 强迫 症 爆 发 直接 全 翻译 成 “数据 
规整 ”。 
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从 事 pandas 项 目 时 给 予 了 不 少 的 支持 : Alex Reyfman、Michael Wong、Tim Sargen、 
Oktay Kurbanov、Matthew Tschantz、Roni Israelov、Michael Katz、Chris Uga、Prasad 
Ramanan、Ted Square， 以 及 Hoon Kim。 然 后 是 我 的 导师 Haynes Miller ( 麻 省 理工 学 
院 ) 和 Mike West ( 杜 克 大 学 ) 。 


私人 方面 ，Casey Dinkin 在 我 写 书 期 间 给 予 了 大 量 的 关心 和 照顾 ， 并 忍受 了 我 一 切 的 情 
绪 波动 ， 因 为 我 在 过 了 预定 时 间 之 后 才 东 拼 西 次 出 了 最 终 的 手稿 。 然 后 是 我 的 父母 Bill 
和 Kim， 从 我 很 小 时 他 们 就 教育 我 要 有 理想 ， 而 且 绝 不 退 而 求 其 次 。 
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0 中， 姓 


本 书 将 要 向 你 介绍 的 是 用 于 高 效 处理 数 据 的 Python 工具 。 虽 然 读者 各 自 工 作 的 最 终 目的 
千差万别 ， 但 基本 都 需要 完成 以 下 几 个 大 类 的 任务 : 


与 外 界 进行 交互 
读 写 各 种 各 样 的 文件 格式 和 数据 库 。 
淮 备 
对 数据 进行 清理 、 修 整 、 整 合 、 规 范 化 、 重 塑 、 切 片 切 块 、 变 形 等 处 理 以 便 进行 
分 析 。 
转换 
对 数据 集 做 一 些 数 学 和 统计 运算 以 产生 新 的 数据 集 。 比 如 说 ， 根 据 分 组 变量 对 一 个 
大 表 进 行 聚 合 。 
建 模 和 计算 
将 数据 跟 统计 模型 、 机 器 学 习 算法 或 其 他 计算 工具 联系 起 来 。 
展示 
创建 交互 式 的 或 静态 的 图 片 或 文字 摘要 。 
我 将 在 本 章 中 给 出 一 些 范例 数据 集 ， 并 讲解 我 们 能 对 其 做 些 什 么 。 这 些 例子 仅仅 是 为 了 
提起 你 的 兴趣 ， 因 此 只 会 在 一 个 比较 高 的 县 次 进行 讲解 。 即 使 你 从 来 没 用 过 这 些 东西 也 
没关系 ， 本 书后 续 的 章节 将 会 对 此 进行 非常 详细 的 讲解 。 在 这 些 代码 示例 中 ， 你 可 以 看 
到 诸如 In [15]: 之 类 的 输入 输出 提示 符 ， 它 们 来 自 IPython shell。 
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来 自 bit.ly 的 1.usa.gov 数 据 


2011 年 ， URL 缩 短 服务 bit.ly 跟 美国 政府 网 站 usa.gov 合 作 ， 提供 了 一 份 从 生成 .gov 或 .mil 
短 链 接 的 用 户 那里 收集 来 的 匿名 数据 评注 !。 直 到 编写 本 书 时 为 止 ， 除 实时 数据 半生 ?之 
外 ， 还 可 以 下 载 文本 文件 形式 的 每 小 时 快照 入 。 


以 每 小 时 快照 为 例 ， 文 件 中 各 行 的 格式 为 JSON ( 即 JavaScript Object Notation， 这 是 一 
种 常用 的 Web 数 据 格式 ) 。 例 如 ， 如 果 我 们 只 读 取 某 个 文件 中 的 第 一 行 ， 那 么 你 所 看 到 
的 结果 应 该 是 下 面 这 样 : 


In [15]: path = 'cho2/usagov_bitly data2012-03-16-1331923249.txt" 


In [16]: open(path).readline() 

Out[16]: '{ "a": "Mozilla\\/5.0 (Windows NT 6.1; WOW64) ApplewebKit\\/535.11 (KHTML, 
like Gecko) Chrome\\/17.0.963.78 Safari\\/535.11", "c": "US", "nk": 1, "tz"; 
"America\\/New_York”, "gr": "MA", "g": "A6qOVH", "h": "wfLQtf", "1": "orofrog", 
"al": "en-US,en;q=0.8", "hh": "1,usa.gov", "r": "http:\\/\\/www.facebook.con\\/ 
1\\W/7AQEFzjSi\\/1.usa.gov\\/wfLQtf", "u": "http:\\/\\/www.ncbi.nlm.nih.gov\\/ 
pubmed\\/22415991", "t": 1331923247, "hc":1331822918, "cy": "Danvers", "11": [ 
42.576698, -70.954903 ] }\n' 


Python 有 许多 内 置 或 第 三 方 模块 可 以 将 JSON 字 符 串 转换 成 Python 字 典 对 象 。 这 里 ， 我 将 
使 用 json 模 块 及 其 loads 函 数 逐 行 加 载 已 经 下 载 好 的 数据 文件 : 
import json 


path = ‘cho2/usagov_bitly_data2012-03-16-1331923249.txt" 
records = [json.loads(line) for line in open(path)] 


你 可 能 之 前 没 用 过 Python ， 解 释 一 下 上 面 最 后 那 行 表 达 式 ， 它 叫做 列表 推导 式 (list 
comprehension) ， 这 是 一 种 在 一 组 字符 串 (或 一 组 别 的 对 象 ) 上 执行 一 条 相同 操作 (如 
json.10ads) 的 简洁 方式 。 在 一 个 打开 的 文件 句柄 上 进行 迭代 即 可 获得 一 个 由 行 组 成 的 
序列 。 现 在 ，records 对 象 就 成 为 一 组 Python 字典 了 : 

In [18]: records[0] 

Out [18]: 

{u'a': u'Mozilla/5.0 (Nindows NT 6.1; MOW64) ApplewebKit/535.11 (KHTML, like Gecko) 


Chrome/17.0.963.78 Safari/535.11', u'al’: u'en-US,en;q=0.8", 
uc': uy'Us', 


译注 1: 由 于 可 以 通过 短 链接 伪造 .gov 后 组 的 URL， 和 导致 用 户 访问 恶意 域名 ， 所 以 美国 政府 开始 着 
手 处 理 这 种 事情 了 。 


译注 2: 以 Feed 形 式 提 供 。 


注 1: 网 址 : htip://www.usa.gov/About/developer-resources/1usagov.shtml . 
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: u'Danvers', 

'A6q0VH , 

UMA', 

"wfLQtf', 

1331822918, 

"1.usa.gov', 

‘orofrog’, 

[42.576698, -70.954903]， 

1, 

‘http://www. facebook. com/1/7AQEFzjSi/1.usa.gov/wfLOtf" , 
是 331923247， 

u'tz': U'America/New_York'， 

uu': u'http://www.ncbi.nlm.nih.gov/pubmed/22415991'} 








注意 ，Python 的 索引 是 从 0 开始 的 ， 不 像 其 他 某 些 语言 是 从 1 开始 的 如 R) 。 现 在 ， 只 
要 以 字符 串 的 形式 给 出 想 要 访问 的 键 就 可 以 得 到 当前 记录 中 相应 的 值 了 : 





In [19]: records[oj['tz'] 
Out[19]: U America/New_York” 


单 引号 前 面 的 u 表 示 unicode (一 种 标准 的 字符 串 编码 格式 ) 。 注 意 ，IPython 在 这 里 给 出 
的 是 时 区 的 字符 串 对 象形 式 ， 而 不 是 其 打印 形式 : 


In [20]: print records[o]['tz'] 
America/New_York 


用 纯 Python 代 码 对 时 区 进行 计数 
假设 我 们 想 要 知道 该 数据 集中 最 常 出 现 的 是 哪个 时 区 ( 即 tz 字段 ) ， 得 到 答案 的 办 法 有 
很 多 。 首 先 ， 我们 用 列表 推导 式 取出 一 组 时 区 : 





In [25]: time_ zones = [rec['tz'] for rec in records] 
KeyError ~ Traceback (most recent call last) 
/home/wesm/book_scripts/whetting/<ipython> in <module>() 
-~--> 1 time zones = [rec['tz'] for rec in records] 


KeyError: ‘tz' 


量 ! 原来 并 不 是 所 有 记录 都 有 时 区 字段 。 这 个 好 办 ， 只 需 在 列表 推导 式 末 尾 加 上 一 个 if 
'"tz ”in rec 判 断 即 可 : 


In [26]: time_zones = [rec['tz'] for rec in records if ‘tz' in rec] 


In [27]: time_zones[:10] 
Out[27]: 
[u'America/New_York’, 
u'America/Denver" , 
u"'America/New_York", 
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u'America/Sao_Paulo’, 
u'America/New_York" , 
u'America/New_York", 
u'Europe/Warsaw’ , 
ri 

入 

| 


只 看 前 10 个 时 区 ， 我 们 发 现 有 些 是 未 知 的 〈 即 空 的 ) 。 虽 然 可 以 将 它们 过 滤 掉 ， 但 现在 
暂时 先 留 着 。 接 下 来 ， 为 了 对 时 区 进行 计数 ， 这 里 介绍 两 个 办 法 : 一 个 较 难 (只 使 用 标 
准 Python 库 ) ， 另 一 个 较 简 单 (使 用 pandas) 。 计 数 的 办 法 之 一 是 在 遍历 时 区 的 过 程 中 
将 计数 值 保 存在 字典 中 : 


def get_counts(sequence): 
counts = {} 
for x in sequence: 
if x in counts: 
counts[x] += 1 
else: 
counts[x] = 1 
return counts 


如 果 非 常 了 解 Python 标准 库 ， 那 么 你 可 能 会 将 代码 写 得 更 简洁 一 些 ， 
from collections import defaultdict 


def get_counts2(sequence): 
counts = defaultdict(int) # 所 有 的 值 均 会 被 初始 化 为 0 
for x in sequence: 
counts[x] += 1 
Teturn counts 


我 将 代码 写 到 函数 中 是 为 了 获得 更 高 的 可 重用 性 。 要 用 它 对 时 区 进行 处 理 ， 只 需 将 
time_zones 传 入 即 可 : 
In [31]: counts = get_counts(time zones) 


In [32]: counts['America/New_York'] 
Out[32]: 1251 


In [33]: len(time_zones) 
Out[33]: 3440 


如 果 想 要 得 到 前 10 位 的 时 区 及 其 计数 值 ， 我 们 需要 用 到 一 些 有 关 字 和 典 的 处 理 技巧 : 


def top_counts(count_dict, n=10): 
value key pairs = [(count, tz) for tz, count in count_dict.items()] 
value key pairs.sort() 
Teturn value key_pairs[-n:] 





现在 我 们 就 可 以 : 


In [35]: top_counts(counts) 
Out[35]: 

[(33, u'America/Sao_Paulo'), 
(35, u'Europe/Madrid'), 

(36, u'Pacific/Honolulu’), 
(37, u'Asia/Tokyo"), 

(74, u'Europe/London'), 
(191, u'America/Denver'), 
(382, u'America/Los_Angeles'), 
(400, u'America/Chicago’ )， 
(521, u''), 

(1251, u'America/New_York')] 


你 可 以 在 Python 标准 库 中 找到 collections.Counter 类 ， 它 能 使 这 个 任务 变 得 更 简单 ; 
In [49]: from collections import Counter 
In [50]: counts = Counter(time zones) 


In [51]: counts.most_common(10) 
Out[51]: 

[(u'America/New_York’ , 1251), 
(u'', 521), 
(u'America/Chicago' , 400), 
(u'America/Los_Angeles', 382), 
(u'America/Denver' , 191), 
(u'Europe/London' , 74), 
(u'Asia/Tokyo' ,37), 
(u'Pacific/Honolulu' , 36), 
(u'Europe/Madrid' ,35), 
(u'America/Sao_Paulo', 33)] 


用 pandas 对 时 区 进行 计数 
DataFrame 是 pandas 中 最 重要 的 数据 结构 ， 它 用 于 将 数据 表示 为 一 个 表格 。 从 一 组 原始 
记录 中 创建 DataFrame 是 很 简单 的 : 


In [289]: from pandas import DataFrame, Series 
In [290]: import pandas as pd; import numpy as np 
In [291]: frame = DataFrane(records) 


In [292]: frame 

Out[292]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 3560 entries, 0 to 3559 

Data columns: 

_heartbeat_ 120 non-null values 

a 3440 non-null values 
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tz 


u 
dtypes: float64(4 


3440 


non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 


non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 


), object(14) 


In [293]: frame['tz'][:10] 
Out[293]: 
America/New_York 
America/Denver 
America/New_York 
America/Sao_Paulo 
America/New_York 
America/New_York 
Europe/Warsaw 


0 


1 
2 
3 
4 
5 
6 
7 
8 
9 
N 


lame: tz 


values 
values 
values 
values 
values 
values 
values 
values 


non-null values 


values 
values 
values 
values 
values 
values 
values 


这 里 frame 的 输出 形式 是 摘要 视图 (summary view) ， 主 要 用 于 较 大 的 DataFrame 对 象 。 
frame[ 'tz'"] 所 返回 的 Series 对 象 有 一 个 value_counts 方 法 ， 该 方法 可 以 让 我 们 得 到 所 需 


的 信息 : 


In [294]: tz_counts = frame['tz'].value_counts() 


In [295]: tz_counts[:10] 
Out[295]: 
America/New_York 


America/Chicago 
America/Los_Angeles 
America/Denver 
Europe/London 
Asia/Tokyo 
Pacific/Honolulu 
Europe/Madrid 
America/Sao_Paulo 


1251 
521 


然后 ， 我 们 想 利用 绘图 库 ( 即 matplotlib) 为 这 段 数 据 生成 一 张 图 片 。 为 此 ， 我 们 先 给 记 
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录 中 未 知 或 缺失 的 时 区 填 上 一 个 替代 值 。fillna 函 数 可 以 替换 缺失 值 (NA) ， 而 未 知 值 
空 字符 串 ) 则 可 以 通过 布尔 型 数组 索引 加 以 震 换 : 


In [296]: clean tz = frame['tz'].fillna('Missing'’) 





In [297]: clean_ tz[clean tz == "'] = "Unknown’ 
In [298]: tz_counts = clean_tz.value_counts() 


In [299]: tz_counts[:10] 


Out[299]: 

America/New York 1251 
Unknown 521 
America/Chicago 400 
America/Los_Angeles 382 
America/Denver 191 
Missing 120 
Europe/London 74 
Asia/Tokyo 37 
Pacific/Honolulu 36 
Europe/Madrid 35 


利用 counts 这 尘 3 对 象 的 plot 方 法 即 可 得 到 一 张 水 平 条 形 图 主 汪 4， 
In [301]: tz_counts[:10].plot(kind="barh' , rot=0) 


最 终结 果 如 图 2-1 所 示 。 我 们 还 可 以 对 这 种 数据 进行 很 多 处 理 。 比 如 说 ，a 字 段 含 有 执行 
URL 短 缩 操作 的 浏览 器 、 设 备 、 应 用 程序 的 相关 信息 


: frame["a'][1] 
: u'GoogleMaps/RochesterNY" 





: frame['a'][50] 
Out[303]: u'Mozilla/5.0 (Windows NT 5.1; rv:10.0.2) Gecko/20100101 Firefox/10.0.2' 


In [304]: frame["a'][51] 


Out[304]: u'Mozilla/5.0 (Linux; U; Android 2.2.2; en-us; LG-P925/V1i0e Build/FRG83G) 
AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1" 


应 该 是 tz_counts 。 





注意 ， 一定 要 以 pylab 模 式 打开 ， 否则 这 条 代码 没 效 果 。 和 包括 很 多 缩写 ，pylab 都 直接 弄 好 
了 ， 如 果 不 是 用 这 种 模式 打开 ， 后 面 很 多 代码 一 样 会 遇 到 问题 ， 虽 然 不 是 什么 大 毛病 ， 但 
毕竟 麻烦 。 后 面 如 果 遇 到 这 没 定义 那 找 不 到 的 情况 ， 就 请 注意 是 不 是 因为 这 个 。 
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Europe/Madrid| 
pacific/Honoluly| 

Asia/Toky: 
Europe/London| 
Missing| 
America/Denver| 
America/Los_Angeles 
America/Chicago| 
Unknown| 





America/New York| 
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图 2-1: 1.usa.gov 示 例 数据 中 最 常 出 现 的 时 区 


将 这 些 “agent” 字 符 串 评 过 5 中 的 所 有 信息 都 解析 出 来 是 一 件 挺 邦 闷 的 工作 。 你 
掌握 了 Python 内 置 的 字符 串 函 数 和 正则 表达 式 ， 事 情 就 好 办 了 。 比 如 说 ， 我 们 可 以 将 这 
种 字符 串 的 第 一 节 (与 浏览 器 大 致 对 应 ) 分 离 出 来 并 得 到 另外 一 份 用 户 行为 摘要 ; 








In [305]: results = Series([x.split()[0] for x in frame.a.dropna()]) 


In [306]: results[:5] 
Out[306]: 

Mozilla/5.0 
1 GoogleMaps/RochesterNY 
2 Mozilla/4.0 
3 Mozilla/5.0 
4 Mozilla/5.0 


In [307]: results.value_counts()[:8] 


Out[307]: 

Mozilla/5.0 2594 
Mozilla/4.0 601 
GoogleMaps/RochesterNY 121 
Opera/9.80 34 
TEST_INTERNET_AGENT 24 
Googleproducer 21 
Mozilla/6.0 5 
BlackBerry8520/5.0.0.681 4 


现在 ， 假 设 你 想 按 Windows 和 非 Windows 用 户 对 时 区 息 进行 分 解 。 为 了 简单 起 
见 ， 我 们 假定 只 要 agent 字 符 串 中 含有 “Windows” 就 认为 该 用 户 为 Windows 用 户 。 由 于 
有 的 agent 缺 失 ， 所 以 首先 将 它们 从 数据 中 移 除 : 








In [308]: cframe = frame[frame.a.notnull()] 
其 次 根据 a 值 计算 出 各 行 是 否 是 Windows: 


译注 5: 即 浏览 器 的 USER_AGENT 信 息 。 








In [309]: operating_system = np-where(cframe["a'].str.contains("Nindows')， 
3 "Windows' ,'Not Windows') 


In [310]: operating_ system[:5] 
Out[310]: 

0 Nindows 

1 Not Windows 
Ls Windows 
3 Not Windows 
4 Windows 
N 


接 下 来 就 可 以 根据 时 区 和 新 得 到 的 操作 系统 列表 对 数据 进行 分 组 了 : 
In [311]: by_tz_os = cframe.groupby(['tz', operating_system]) 


然后 通过 size 对 分 组 结果 进行 计数 (类似 于 上 面 的 value_counts 函 数 ) ， 并 利用 unstack 对 
计数 结果 进行 重 塑 : 


In [312]: agg_counts = by _ tz_o0s.size().unstack().fillna(0) 


In [313]: agg_counts[:10] 
Out[313]:; 
a Not Windows Windows 
tz 

245 276 
Africa/Cairo 
Africa/Casablanca 
Africa/Ceuta 
Africa/Johannesburg 
Africa/Lusaka 
America/Anchorage 
America/Argentina/Buenos_Aires 
America/Argentina/Cordoba 
America/Argentina/Mendoza 


oorroooo0o0 
prorppNpw 


最 后 ， 我 们 来 选取 最 常 出 现 的 时 区 。 为 了 达到 这 个 目的 ， 我 根据 agg_counts 中 的 行 数 构 
造 了 一 个 间接 索引 数组 : 


# 用 于 按 升序 排列 
In [314]: indexer = agg_counts.sum(1).argsort() 


In [315]: indexer[:10] 


Out[315]: 
tz 

24 
Africa/Cairo 20 
Africa/Casablanca 21 
Africa/Ceuta 92 
Africa/Johannesburg 87 
Africa/Lusaka 53 
America/Anchorage 54 
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America/Argentina/Buenos_Aires 57 
America/Argentina/Cordoba 26 
America/Argentina/Mendoza 55 


然后 我 通过 take 按 照 这 个 顺序 截取 了 最 后 10 行 : 
In [316]: count_subset = agg_counts.take(indexer)[-10:] 


In [317]: count_subset 


Out[317]: 
a Not Windows Windows 
tz 
America/Sao_paulo 13 20 
Europe/Madrid 16 19 
pacific/Honolulu 0 36 
Asia/Tokyo 2 3 
Europe/London 43 31 
America/Denver 132 59 
America/Los_Angeles 130 252 
America/Chicago 115 285 
245 276 
America/New_York 339 912 


这 里 也 可 以 生成 一 张 条 形 图 。 我 将 使 用 stacked=True 来 生成 一 张 堆积 条 形 图 (如 图 2-2 所 


示 ) : 
In [319]: count_subset.plot(kind="barh', stacked=True) 


由 于 在 这 张 图 中 不 太 容 易 看 清楚 较 小 分 组 中 Windows 用 户 的 相对 比例 ， 因 此 我 们 可 以 将 
各 行规 范 化 为 “总 计 为 1” 并 重新 绘图 (如 图 2-3 所 示 ) : 


In [321]: normed_subset = count_subset.div(count_subset.sum(1)，axis=0) 


In [322]: normed_subset.plot(kind="barh', stacked=True) 


这 里 所 用 到 的 所 有 方法 都 会 在 本 书后 续 的 章节 中 详细 讲解 。 


MovieLens 1M 数 据 集 


GroupLens Research (http://www.8grouplens.org/mnode173) 采集 了 一 组 从 20 世 纪 90 年 末 
到 21 世 纪 初 由 MovieLens 用 户 提供 的 电影 评分 数据 。 这 些 数据 中 包括 电影 评分 、 电 影 元 
数据 (风格 类 型 和 年 代 ) 以 及 关于 用 户 的 人 口 统计 学 数据 年龄、 邮编 、 性 别 和 职业 
等 ) 。 基 于 机 器 学 习 算法 的 推荐 系统 一 般 都 会 对 此 类 数据 感 兴趣 。 虽 然 我 不 会 在 本 书 中 
详细 介绍 机 器 学 习 技术 ， 但 我 会 告诉 你 如 何 对 这 种 数据 进行 切片 切 块 以 满足 实际 需求 。 








[ 
America/New_York| 





America/Chicago 

America/Los_Angeles 

America/Denver 

Europe/London| 
Asia/Toky: 


Pacific/Honoluly| 


Europe/Madrid| a 
mm Not Windows 
America/Sao_Paulo Windows 


2 和 | 
0 200 400 6500 800 1000 1200 1400 














图 2-2: 按 Windows 和 非 Windows 用 户 统计 的 最 常 出 现 的 时 区 
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图 2-3: 按 Windows 和 非 Windows 用 户 比例 统计 的 最 常 出 现 的 时 区 


MovieLens 1M 数 据 集 含有 来 自 6000 名 用 户 对 4000 部 电影 的 100 万 条 评分 数据 。 它 分 为 
个 表 : 评分 、 用 户 信息 和 电影 信息 。 将 该 数据 从 zip 文 件 中 解压 出 来 之 后 ， 可 以 通过 


pandas.read_table 将 各 个 表 分 别 读 到 一 个 pandas DataFrame 对 象 中 














import pandas as pd 
unames = ['user_id', 'gender', 'age', ‘occupation’, ‘zip'] 
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users = pd.read table('ml-lm/users.dat'，sep='::"，header=None，names=unames) 


rnames = ['user_id', 'movie_id', ‘rating', 'timestamp'] 
ratings = pd.read_table('m]-1m/ratings.dat', sep="::', header=None, names=rnames) 





mnames 
movies 


['movie_id', ‘title’, ‘genres'] 
pd.read_table( "ml-1m/movies.dat' , sep= 





*, header=None, names=mnames) 


利用 Python 的 切片 语法 ， 通 过 查看 每 个 DataFrame 的 前 几 行 即 可 验证 数据 加 载 工作 是 否 
一 切 顺利 : 


In [334]: users[:5] 


Out [334]: 
user_id gender age occupation zip 
0 1 和 10 48067 
1 2 M 56 16 70072 
2 3 NM 25 15 55117 
3 4 M 45 7 02460 
4 5 NM 25 20 55455 
In [335]: ratings[:5] 
Out[335]: 
user_id movie id rating timestamp 
0 1 1193 5 978300760 
1 1 661 3 978302109 
2 1 914 3 978301968 
3 和 3408 4 978300275 
4 1 2355 5 978824291 
In [336]: movies[:5] 
Out[336]: 
movie_id title genres 
0 1 Toy Story (1995) ” Animation|Children's|Comedy 
1 2 Jumanji (1995) Adventure|Children's|Fantasy 
2 3 Grumpier 01d Men (1995) Comedy |Romance 
3 4 Waiting to Exhale (1995) Comedy |Drama 
4 5 Father of the Bride Part II (1995) Comedy 


In [337]: ratings 

Out [337]: 

<class ‘pandas.core. frane.DataFrame" > 
Int64Index: 1000209 entries, 0 to 1000208 
Data columns: 


user_id 1000209 non-null values 
movie_id 1000209 non-null values 
rating 1000209 non-null values 


timestamp 1000209 non-null values 

dtypes: int64(4) 
注意 ， 其 中 的 年 龄 和 职业 是 以 编码 形式 给 出 的 ， 它 们 的 具体 含义 请 参考 该 数据 集 的 
README 文 件 。 分 析 散 布 在 三 个 表 中 的 数据 可 不 是 一 件 轻 松 的 事情 。 假 设 我 们 想 要 根据 性 
别 和 年 龄 计算 某 部 电影 的 平均 得 分 ， 如 果 将 所 有 数据 都 合并 到 一 个 表 中 的 话 问题 就 简单 





多 了 。 我 们 先 用 pandas 的 merge 函 数 将 ratings 跟 users 合 并 到 一 起 ， 然 后 再 将 movies 也 合 
并 进去 。pandas 会 根据 列 名 的 重合 情 况 推断 出 哪些 列 是 合并 (或 连接 ) 键 : 


In [338]: data = pd.merge(pd.merge(ratings, users), movies) 


In [339]: data 

Out[339]: 

<class ‘pandas. core.frame.DataFrame’> 
Int64Index: 1000209 entries, 0 to 1000208 
Data columns: 


user_id 1000209 non-null values 
movie_id 1000209 non-null values 
rating 1000209 non-null values 
timestamp 1000209 non-null values 
gender 1000209 non-null values 
age 1000209 non-null values 
occupation 1000209 non-null values 
zip 1000209 non-null values 
title 1000209 non-null values 
genres 1000209 non-null values 


dtypes: int64(6), object(4) 


In [340]: data.ix[0] 


Out[340]: 

user_id 1 
movie_id 1 
rating 5 
timestamp 978824268 
gender F 
age 1 
occupation 10 
zip 48067 
title Toy Story (1995) 
genres Animation|Children's|Comedy 
Name: 0 


现在 ， 只 要 稍微 熟悉 一 下 pandas， 就 能 轻松 地 根据 任意 个 用 户 或 电影 属性 对 评分 数据 
进行 聚合 操作 了 。 为 了 按 性 别 计算 每 部 电影 的 平均 得 分 ， 我 们 可 以 使 用 pivot_table 
方法 : 


In [341]: mean_ratings = data.pivot table('rating’, rows="title’, 
cols='gender'，aggfunc='mean') 





In [342]: mean_ratings[:5] 


Out[342]: 

gender F Mm 
title 

$1,000,000 Duck (1971) 3.375000 2.761905 
"Night Mother (1986) 3.388889 3.352941 
"Til There Was You (1997) 2.675676 2.733333 
"burbs, The (1989) 2.793478 2.962085 


.And Justice for All (1979) 3.828571 3.689024 
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该 操作 产生 了 另 一 个 DataFrame， 其 内 容 为 电影 平均 得 分 ， 行 标 为 电影 名 称 ， 列 标 为 性 
别 。 现 在 ， 我 打算 过 滤 掉 评分 数据 不 够 250 条 的 电影 (随便 选 的 一 个 数字 ) 。 为 了 达到 
这 个 目的 ， 我 先 对 title 进 行 分 组 ， 然 后 利用 size() 得 到 一 个 含有 各 电影 分 组 大 小 的 Series 
对 象 : 

In [343]: ratings by title = data.groupby('title').size() 


In [344]: ratings by title[:10] 


Out[344]: 

title 

$1,000,000 Duck (1971) 37 
"Night Mother (1986) 70 
'Til There Was You (1997) 52 
‘burbs, The (1989) 303 
.And Justice for All (1979) 199 
1-900 (1994) 2 
10 Things I Hate About You (1999) 700 
101 Dalmatians (1961) 565 
101 Dalmatians (1996) 364 
12 Angry Men (1957) 616 


In [345]: active titles = ratings by title.index[ratings_by title >= 250] 


In [346]: active titles 

Out[346]: 

Index(['burbs, The (1989), 10 Things I Hate About You (1999), 
101 Dalmatians (1961), ..., Young Sherlock Holmes (1985), 
Zero Effect (1998), eXistenz (1999)], dtype=object) 


该 索引 中 含有 评分 数据 大 于 250 条 的 电影 名 称 ， 然 后 我 们 就 可 以 据 此 从 前 面 的 nean_ 
ratings 中 选取 所 需 的 行 了 : 


In [347]: mean_ratings = mean_ratings.ix[active_titles] 


In [348]: mean_ratings 

Out[348]: 

<class “pandas.core.frame.DataFrame'"> 

Index: 1216 entries, ‘burbs, The (1989) to eXistenZ (1999) 
Data columns: 

F1216 non-null values 

M 1216 non-null values 

dtypes: float64(2) 


为 了 了 解 女性 观众 最 喜欢 的 电影 ， 我 们 可 以 对 F 列 降序 排列 : 


In [350]: top_female_ ratings = nean_ratings.sort_index(by='F', ascending=False) 


In [351]: top_female ratings[:10] 


Out[351]: 

gender F M 
title 

Close Shave, A (1995) 4.644444 4.473795 
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Wrong Trousers, The (1993) 4.588235 4.478261 


Sunset Blvd. (a.k.a. Sunset Boulevard) (1950) 4.572650 4.464589 
Wallace & Gromit: The Best of Aardman Animation (1996) 4.563107 4.385075 
Schindler's List (1993) 4.562602 4.491415 
Shawshank Redemption, The (1994) 4.539075 4.560625 
Grand Day Out, A (1992) 4.537879 4.293255 
To Kill a Mockingbird (1962) 4.536667 4.372611 
Creature Comforts (1990) 4.513889 4.272277 
Usual Suspects, The (1995) 4.513317 4.518248 


计算 评分 分 歧 
假设 我 们 想 要 找 出 男性 和 女性 观众 分 歧 最 大 的 电影 。 一 个 办 法 是 给 mean_ratings 加 上 一 
个 用 于 存放 平均 得 分 之 差 的 列 ， 并 对 其 进行 排序 ; 


In [352]: mean_ratings['diff'] = mean_ratings['M'] - mean_ratings["F'] 
按 “diff” 排 序 即 可 得 到 分 歧 最 大 上 且 女性 观众 更 喜欢 的 电影 : 
In [353]: sorted_by_ diff = mean_ratings.sort_index(by='diff') 


In [354]: sorted by _diff[:15] 


Out[354]: 

gender F Mm diff 
title 

Dirty Dancing (1987) 3.790378 2.959596 -0.830782 
Jumpin” Jack Flash (1986) 3.254717 2.578358 -0.676359 
Grease (1978) 3.975265 3.367041 -0.608224 
Little Women (1994) 3.870588 3.321739 -0.548849 
Steel Magnolias (1989) 3.901734 3.365957 -0.535777 
Anastasia (1997) 3.800000 3.281609 -0.518391 
Rocky Horror Picture Show，The (1975) 3.673016 3.160131 -0.512885 
Color Purple, The (1985) 4.158192 3.659341 -0.498851 
Age of Innocence, The (1993) 3.827068 3.339506 -0.487561 
Free Willy (1993) 2.921348 2.438776 -0.482573 
French Kiss (1995) 3.535714 3.056962 -0.478752 
Little Shop of Horrors，The (1960) 3.650000 3.179688 -0.470312 
Guys and Dolls (1955) 4.051724 3.583333 -0.468391 
Mary Poppins (1964) 4.197740 3.730594 -0.467147 
Patch Adams (1998) 3.473282 3.008746 -0.464536 


对 排序 结果 反 序 并 取出 前 15 行 ， 得 到 的 则 是 男性 观众 更 喜欢 的 电影 : 


# 对 行 反 序 ， 并 取出 前 15 行 





In [355]: sorted by_diff[::-1][:15] 

Out [355]: 

gender F 用 diff 
title 

Good, The Bad and The Ugly, The (1966) 3.494949 4.221300 0.726351 
Kentucky Fried Movie, The (1977) 2.878788 3.555147 0.676359 
Dumb & Dumber (1994) 2.697987 3.336595 0.638608 
Longest Day, The (1962) 3.411765 4.031447 0.619682 





Cable Guy, The (1996) 2.250000 2.863787 0.613787 
Evil Dead II (Dead By Dawn) (1987) 3.297297 3.909283 0.611985 
Hidden, The (1987) 3.137931 3.745098 0.607167 
Rocky III (1982) 2.361702 2.943503 0.581801 
Caddyshack (1980) 3.396135 3.969737 0.573602 
For a Few Dollars More (1965) 3.409091 3.953795 0.544704 
Porky's (1981) 2.296875 2.836364 0.539489 
Animal House (1978) 3.628906 4.167192 0.538286 
Exorcist, The (1973) 3.537634 4.067239 0.529605 
Fright Night (1985) 2.973684 3.500000 0.526316 
Barb Wire (1996) 1.585366 2.100386 0.515020 


如 果 只 是 想 要 找 出 分 歧 最 大 的 电影 (不 考虑 性 别 因素 ) ， 则 可 以 计算 得 分 数据 的 方差 或 
标准 差 : 

# 根据 电影 名 称 分 组 的 得 分 数据 的 标准 差 

In [356]: rating_std_by_title = data.groupby('title')['rating'].std() 


# 根据 active_titles 进 行 过 小 
In [357]: rating_std_by_ title = rating_std_by title.ix[active titles] 


# 根据 值 对 Series 进 行 降序 排列 
In [358]: rating_std by title.order(ascending=False)[:10] 


Out[358]: 

title 

Dumb & Dumber (1994) 1.321333 
Blair Witch Project，The (1999) 1.316368 
Natural Born Killers (1994) 1.307198 
Tank Girl (1995) 1.277695 
Rocky Horror Picture Show, The (1975) 。 1.260177 
Eyes Wide Shut (1999) 1.259624 
Evita (1996) 1.253631 
Billy Madison (1995) 1.249970 
Fear and Loathing in Las Vegas (1998) 1.246408 
Bicentennial Man (1999) 1.245533 


Name: rating 


可 能 你 已 经 注意 到 了 ， 电 影 分 类 是 以 竖 线 (1) 分 隔 的 字符 串 形式 给 出 的 。 如 果 想 对 电影 
分 类 进行 分 析 的 话 ， 就 需要 先 将 其 转换 成 更 有 用 的 形式 才 行 。 我 将 在 本 书后 续 章 节 中 讲 
到 这 种 转换 处 理 ， 到 时 还 会 再 用 到 这 个 数据 。 


1880 一 2010 年 间 全 美 婴 儿 姓名 


美国 社会 保障 总 署 (SSA) 提供 了 一 份 从 1880 年 到 2010 年 的 婴儿 名 字 频 率 数据 。 Hadley 
Wickham (许多 流行 R 包 的 作者 ) 经 常用 这 份 数据 来 演示 R 的 数据 处 理 功能 。 


In [4]: names.head(10) 


Out[4]: 
name sex births ”year 
0 Mary F 7065 -1880 
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1 Anna F 2604 1880 
2 Emma F 2003 1880 
3 Elizabeth F 1939 1880 
4 Minnie F 1746 1880 
5 Margaret F 1578 1880 
6 Ida F 1472 1880 
和 Alice F 1414 1880 
8 Bertha 上 1320 1880 
9 Sarah 上 1288 1880 


你 可 以 用 这 个 数据 集 做 很 多 事 ， 例 如 : 


。 ”计算 指定 名 字 (可 以 是 你 自己 的 ， 也 可 以 是 别人 的 ) 的 年 度 比 例 。 

。 ”计算 某 个 名 字 的 相对 排名 。 

。 ”计算 各 年 度 最 流行 的 名 字 ， 以 及 增长 或 减少 最 快 的 名 字 。 

。 ”分 析 名 字 趋 势 : 元 音 、 辅 音 、 长 度 、 总 体 多 样 性 、 拼 写 变化 、 首 尾 字母 等 。 
。 分析 外 源 性 趋势 : 圣经 中 的 名 字 、 名 人 、 人 口 结构 变化 等 。 


利用 前 面 介绍 过 的 那些 工具 ， 这 些 分 析 工作 都 能 很 轻松 地 完成 ， 因 此 我 会 尽量 多 讲 一 
些 。 我 建议 你 下 载 这 些 数据 并 亲自 试 一 试 。 如 果 你 在 这 些 数据 中 找到 了 某 个 有 趣 的 模 
式 ， 我 将 非常 乐意 听 上 一 听 。 


到 编写 本 书 时 为 止 ， 美 国 社会 保障 总 署 将 该 数据 库 按 年 度 制 成 了 多 个 数据 文件 ， 其 中 给 
出 了 每 个 性 别 /名 字 组 合 的 出 生 总 数 。 这 些 文件 的 原始 档案 可 以 在 这 里 获取 : 评 让 6 


http://www.ssa.gov/oact/babynames/limits.html? 


如 果 你 在 阅读 本 书 的 时 候 这 个 页 面 已 经 不 见 了 ， 也 可 以 用 搜索 引擎 找 找 。 下 载 

“National data” 文 件 names.zip， 解 压 后 的 目录 中 含有 一 组 文件 (如 yob1880.txt) 。 我 
用 UNIX 的 head 命 令 查看 了 其 中 一 个 文件 的 前 10 行 (在 Windows 上 ， 你 可 以 用 more 命 令 ， 
或 直接 在 文本 编辑 器 中 打开 ) : 


In [367]: !head -n 10 names/yob1880.txt 
Mary,F,7065 
Anna,F,2604 
Emma,F ,2003 
Elizabeth,F,1939 
Minnie,F,1746 
Margaret,F,1578 
Ida,F,1472 
Alice,F,1414 
Bertha,F,1320 
Sarah,F,1288 


译注 6: 如 下 链接 可 能 不 可 用 ， 读 者 可 直接 在 本 书 的 github 上 下 载 。 
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由 于 这 是 一 个 非常 标准 的 以 逗号 隔 开 的 格式 ， 所 以 可 以 用 pandas.read_csv 将 其 加 载 到 
DataFrame 中 : 


In [368]: import pandas as pd 


In [369]: names1880 = pd.read_csv('names/yob1880.txt'，names=[ "name'， 'sex', 
‘births']) 


In [370]: names1880 

Out[370]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 2000 entries, 0 to 1999 
Data columns: 

name 2000 non-null values 

Sex 2000 non-null values 
births 2000 non-null values 
dtypes: int64(1), object(2) 


这 些 文件 中 仅 含有 当年 出 现 超过 5 次 的 名 字 。 为 了 简单 起 见 ， 我 们 可 以 用 births 列 的 sex 分 
组 小 计 表 示 该 年 度 的 births 总 计 : 


In [371]: names1880.groupby('sex').births.sum() 


out[371]: 
Sex 

F 90993 
M 110493 


Name: births 


由 于 该 数据 集 按 年 度 被 分 隔 成 了 多 个 文件 ， 所 以 第 一 件 事情 就 是 要 将 所 有 数据 都 组 装 到 
一 个 DataFrame 里 面 ， 并 加 上 一 个 year 字 段 。 使 用 pandas .concat 即 可 达到 这 个 目的 ; 


# 2010 是 目前 最 后 一 个 有 效 统计 年 度 
years = range(1880, 2011) 


pieces = [] 
columns = ['name', 'sex’, ‘births'] 


for year in years: 
path = ‘names/yob%d.txt' % year 
frame = pd.read_csv(path, names=colunns) 


frame['year'] = year 
pieces.append(frame) 


# 将 所 有 数据 整合 到 单个 DataFrame 中 

names = pd.concat(pieces, ignore_index=True) 
这 里 需要 注意 几 件 事情 。 第 一 ，concat 默 认 是 按 行将 多 个 DataFrame 组 合 到 一 起 的 ， 第 
二 ， 必 须 指 定 ignore_index=True， 因 为 我 们 不 希望 保留 read_csv 所 返回 的 原始 行 号 。 现 
在 我 们 得 到 了 一 个 非常 大 的 DataFrame， 它 含有 全 部 的 名 字数 据 。 





现在 names 这 个 DataFrame 对 象 看 上 去 应 该 是 这 个 样子 : 


In [373]: names 

out[373] : 

<class "pandas.core.frame.DataFrame'》 
Int64Index: 1690784 entries, 0 to 1690783 
Data columns: 


name 1690784 non-null values 
Sex 1690784 non-null values 
births 1690784 non-null values 
year 1690784 non-null values 


dtypes: int64(2), object(2) 


有 了 这 些 数 据 之 后 ， 我 们 就 可 以 利用 groupby 或 pivot_table 在 year 和 sex 级 别 上 对 其 进行 
聚合 了 ， 如 图 2-4 所 示 : 


In [374]: total_births = names.pivot_table('births’, rows="year', 
cols='sex'，aggfunc=sum) 





In [375]: total_births.tail() 
out[375] : 

Sex F M 

year 

2006 1896468 2050234 

2007 1916888 2069242 

2008 1883645 2032310 

2009 1827643 1973359 

2010 1759010 1898382 


In [376]: total_births.plot(title='Total births by sex and year') 


下 面 我 们 来 插入 一 个 prop 列 ， 用 于 存放 指定 名 字 的 婴儿 数 相对 于 总 出 生 数 的 比例 。prop 
值 为 0.02 表 示 每 100 名 婴儿 中 有 2 名 取 了 当前 这 个 名 字 。 因 此 ， 我 们 先 按 year 和 sex 分 组 ， 
然后 再 将 新 列 加 到 各 个 分 组 上 : 

def add_prop(group): 


# 整数 除法 会 向 下 圆 束 
births = group-births.astype(float) 


group['prop"] = births / births.sum() 
return group 
names = names.groupby(['year', 'sex']).apply(add_prop) 





注意 : 由 于 births 是 整数 ， 所 以 我 们 在 计算 分 式 时 必须 将 分 子 或 分 母 转换 成 浮 点 数 (除非 你 正在 使 
用 Python 3! ) 。 
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Total births by sex and year 
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图 2-4: 按 性 别 和 年 度 统计 的 总 出 生 数 
现在 ， 完 整 的 数据 集 就 有 了 下 面 这 些 列 : 


In [378]: names 

Out[378]: 

<class “pandas.core.frame.DataFrame'> 
Int64Index: 1690784 entries, 0 to 1690783 
Data columns: 


name 1690784 non-null values 
Sex 1690784 non-null values 
births 1690784 non-null values 
year 1690784 non-null values 
prop 1690784 non-null values 


dtypes: float64(1), int64(2), object(2) 


在 执行 这 样 的 分 组 处 理 时 ， 一 般 都 应 该 做 一 些 有 效 性 检查 ， 比 如 验证 所 有 分 组 的 prop 的 
总 和 是 否 为 1。 由 于 这 是 一 个 浮 点 型 数据 ， 所 以 我 们 应 该 用 np.allclose 来 检查 这 个 分 组 
总 计 值 是 否 足够 近似 于 (可 能 不 会 精确 等 于 ) 1: 


In [379]: np.allclose(names.groupby(['year', 'sex']).prop.sum(), 1) 
Out[379]: True 


这 样 就 算 完 活 了 。 为 了 便于 实现 更 进一步 的 分 析 ， 我 需要 取出 该 数据 的 一 个 子 集 : 每 对 
Sex/year 组 合 的 前 1000 个 名 字 。 这 又 是 一 个 分 组 操作 : 


def get_top1000(group): 
return group.sort_index(by='births', ascending=False)[:1000] 


Brouped = names.groupby(['year', 'sex']) 
top1000 = grouped.apply(get_top1000) 


如 果 你 喜欢 DIY 的 话 ， 也 可 以 这 样 : 





pieces = [] 

for year, group in names.groupby(['year', 'sex']): 
pieces.append(group.sort_index(by="births', scending=False)[:1000]) 

top1000 = pd.concat(pieces, ignore_index=True) 


现在 的 结果 数据 集 就 小 多 了 : 





In [382]: top1000 

Out[382]: 

<class ‘pandas.core. frame.DataFrame'> 
Int64Index: 261877 entries, 0 to 261876 
Data columns: 


name 261877 non-null values 
Sex 261877 non-null values 
births 261877 non-null values 
year 261877 non-null values 
prop 261877 non-null values 


dtypes: float64(1), int64(2), object(2) 


接 下 来 的 数据 分 析 工 作 就 针对 这 个 top1000 数 据 集 了 。 


分 析 命名 趋势 


有 了 完整 的 数据 集 和 刚才 生成 的 top1000 数 据 集 ， 我 们 就 可 以 开始 分 析 各 种 命名 趋势 了 。 
首先 将 前 1000 个 名 字 分 为 男女 两 个 部 分 : 


In [383]: boys = topl000[top1000.sex == "M'] 
In [384]: girls = top1000[top1000.sex == 'F'] 


这 是 两 个 简单 的 时 间 序列 ， 只 需 稍 作 整 理 即 可 绘制 出 相应 的 图 表 (比如 每 年 叫做 John 和 
Mary 的 婴儿 数 ) 。 我 们 先生 成 一 张 按 year 和 name 统 计 的 总 出 生 数 透视 表 : 


In [385]: total_births = top1000.pivot_table('births'，rows='year'，cols='name'， 
aggfunc=sum) 





现在 ， 我 们 用 DataFrame 的 plot 方 法 绘制 几 个 名 字 的 曲线 图 : 


In [386]: total births 

out[386] : 

<class 'pandas.core. frame.DataFrame' > 
Int64Index: 131 entries, 1880 to 2010 
Columns: 6865 entries, Aaden to Zuri 
dtypes: float64(6865) 


In [387]: subset = total_births[['John’, ‘Harry’, ‘Mary’, ‘Marilyn']] 


In [388]: subset.plot(subplots=True, figsize=(12, 10), grid=False, 
x title="Number of births per year") 
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最 终结 果 如 图 2-5 所 示 。 从 图 中 可 以 看 出 ， 这 几 个 名 字 在 美国 人 民 的 心目 中 已 经 风光 不 再 
了 。 但 事实 并 非 如 此 简单 ， 我 们 在 下 一 节 中 就 能 知道 是 怎么 一 回 事 了 。 
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图 2-5: 几 个 男 政和 妇 政 台 字 随时 间 变 化 的 使 用 数量 


评估 命名 多 样 性 的 增长 

图 2-5 所 反映 的 降低 情况 可 能 意味 着 父母 愿意 给 小 孩 起 常见 的 名 字 越 来 越 少 。 这 个 假设 可 
以 从 数据 中 得 到 验证 。 一 个 办 法 是 计算 最 流行 的 1000 个 名 字 所 占 的 比例 ， 我 按 year 和 sex 
进行 聚合 并 绘图 : 





In table = top1000.pivot_table('prop’', rows='year’, 
cols='sex', aggfunc=sum) 


In onl table.plot(title="Sum of table1000.prop by year and sex', 
yticks=np.linspace(0, 1.2, 13), xticks=range(1880, 2020, 10)) 


结果 如 图 2-6 所 示 。 从 图 中 可 以 看 出 ， 名 字 的 多 样 性 确实 出 现 了 增长 (前 1000 项 的 比例 
降低 ) 。 另 一 个 办 法 是 计算 占 总 出 生 人 数 前 50% 的 不 同名 字 的 数量 ， 这 个 数字 不 太 好 计 
算 。 我 们 只 考虑 2010 年 男孩 的 名 字 : 


In [392]: df = boys[boys.year == 2010] 


In [393]: df 

Out[393]: 

<class ‘pandas.core.frame.DataFrame'> 
Int64Index: 1000 entries, 260877 to 261876 
Data columns: 

name 1000 non-null values 
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Sex 1000 non-null values 
births 1000 non-null values 
year 1000 non-null values 
prop 1000 non-null values 
dtypes: float64(1)，int64(2)，object(2) 





让 Sum of table1000.prop by year and sex 
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图 2-6， 分 性 别 统计 的 前 1000 个 名 字 在 总 出 生 人 数 中 的 比例 


在 对 prop 降 序 排列 之 后 ， 我 们 想 知道 前 面 多 少 个 名 字 的 人 数 加 起 来 才 够 50% 。 虽 然 
一 个 for 循 环 确实 也 能 达到 目的 ， 但 NumPy 有 一 种 更 聪明 的 矢量 方式 。 先 计算 prop 的 累 
计 和 cumsum， 然 后 再 通过 searchsorted 方 法 找 出 0.5 应 该 被 插入 在 哪个 位 置 才能 保证 不 破 
坏 顺 序 : 





5 


In [394]: prop_cumsum = df.sort_index(by='prop’, ascending=False).prop.cunsun() 


In [395]: prop_cumsum[:10] 
Out[395]: 
260877 0.011523 
260878 0.020934 
260879 0.029959 
260880 0.038930 
260881 0.047817 
260882 0.056579 
260883 0.065155 
260884 0.073414 
260885 0.081528 
260886 0.089621 


In [396]: prop_cumsum.searchsorted(0.5) 
out[396]: 116 


由 于 数组 索引 是 从 0 开始 的 ， 因 此 我 们 要 给 这 个 结果 加 1， 即 最 终结 果 为 117。 拿 1900 年 
的 数据 来 做 个 比较 ， 这 个 数字 要 小 得 多 : 
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In [397]: df = boys[boys.year == 1900] 

In [398]: in1900 = df.sort index(by="prop', ascending=False).prop.cumsum() 
In [399]: in1900.searchsorted(0.5) + 1 

Out[399]: 25 


现在 就 可 以 对 所 有 year/sex 组 合 执行 这 个 计算 了 。 按 这 两 个 字段 进行 groupby 处 理 ， 然 后 
用 一 个 函数 计算 各 分 组 的 这 个 值 : 


def get_quantile_count(gBroup，q=0.5): 
group = group.sort_index(by="prop', ascending=False) 
return group.prop.cumsum().searchsorted(q) + 1 


diversity = top1000.groupby(['year', 'sex']).apply(get_quantile_count) 
diversity = diversity.unstack('sex') 


现在 ，diversity 这 个 DataFrame 拥 有 两 个 时 间 序 列 (每 个 性 别 各 一 个 ， 按 年 度 索 引 ) 。 
通过 IPython， 你 可 以 查看 其 内 容 ， 还 可 以 像 之 前 那样 绘制 图 表 (如 图 2-7 所 示 ) : 


In [401]: diversity.head() 
Out[401]: 

sex F M 

year 

1880 38 14 

1881 38 14 

1882 38 15 

1883 39 15 

1884 39 16 


In [402]: diversity.plot(title="Number of popular names in top 50%") 


2 Number of popular names in top 50% 
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图 2-7: 按 年 度 统计 的 密度 表 
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从 图 中 可 以 看 出 ， 女 孩 名 字 的 多 样 性 总 是 比 男孩 的 高 ， 而 且 还 在 变 得 越 来 越 高 。 读 者 们 
可 以 自己 分 析 一 下 具体 是 什么 在 驱动 这 个 多 样 性 (比如 拼写 形式 的 变化 ) 。 


“最 后 一 个 字母 ”的 变革 
2007 年 ， 一 名 婴儿 姓名 研究 人 员 Laura Wattenberg 在 她 自己 的 网 站 上 指出 (http://www. 
babynamewizard.com) : 近 百 年 来 ， 男 孩 名 字 在 最 后 一 个 字母 上 的 分 布 发 生 了 显著 的 变 
化 。 为 了 了 解 具体 的 情况 ， 我 首先 将 全 部 出 生 数据 在 年 度 、 性 别 以 及 末 字 母 上 进行 了 聚合 : 
# 从 name 列 取出 最 后 一 个 字母 
get_last_letter = lanbda x: x[-1] 
last_letters = names.name.map(get_last_letter) 
last_letters.name = '1ast_letter' 


table = names.pivot_table('births', rows=last_letters, 
cols=['sex', 'year'], aggfunc=sum) 


然后 ， 我 选 出 具有 一 定 代表 性 的 三 年 ， 并 输出 前 面 几 行 : 
In [404]: subtable = table.reindex(columns=[1910, 1960, 2010], level='year') 


In [405]: subtable.head() 


Out[405]: 

Sex F Mm 

year 1910 1960 2010 1910 1960 2010 
last_letter 

a 108376 691247 670605 977 5204 28438 
b NaN 694 450 411 3912 38859 
< 5 49 946 482 15476 23125 
d 6750 3729 2607 22111 262112 44398 
e 133569 435013 313833 28655 178823 129012 


接 下 来 我 们 需要 按 总 出 生 数 对 该 表 进行 规范 化 处 理 ， 以 便 计算 出 各 性 别 各 末 字 母 占 总 出 
生 人 数 的 比例 : 


In [406]: subtable.sum() 

Out[406]: 

sex year 

F 1910 396416 
1960 2022062 
2010 1759010 

M 1910 194198 
1960 2132588 
2010 1898382 


In [407]: letter prop = subtable / subtable.sum().astype(float) 
有 了 这 个 字母 比例 数据 之 后 ， 就 可 以 生成 一 张 各 年 度 各 性 别 的 条 形 图 了 ， 如 图 2-8 所 示 : 


import matplotlib.pyplot as plt 
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fig, axes = plt.subplots(2, 1, figsize=(10, 8)) 
letter prop['M'].plot(kind="bar', rot=0, ax=axes[0], title='Male’) 
letter prop[ 'F'].plot(kind="bar’, rot=0, ax=axes[1], title='Female', legend=False) 
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图 2-8: 男孩 女孩 名 字 中 各 个 末 字 母 的 比例 


从 图 2-8 中 可 以 看 出 ， 从 20 世 纪 60 年 代 开始 ， 以 字母 “n” 结 尾 的 男孩 名 字 出 现 了 显著 的 
增长 。 回 到 之 前 创建 的 那个 完整 表 ， 按 年 度 和 性 别 对 其 进行 规范 化 处 理 ， 并 在 男孩 名 字 
中 选取 几 个 字母 ， 最 后 进行 转 置 以 便 将 各 个 列 做 成 一 个 时 间 序 列 : 


In [410]: letter prop = table / table.sum().astype(float) 
In [411]: dny_ts = letter_prop.ix[['d 'n’, 'y’], 'M'].T 


In [412]: dny_ts.head() 
Out[412]: 

d n y 
year 
1880 0.083055 0.153213 0.075760 
1881 0.083247 0.153214 0.077451 
1882 0.085340 0.149560 0.077537 
1883 0.084066 0.151646 0.079144 
1884 0.086120 0.149915 0.080405 


有 了 这 个 时 间 序 列 的 DataFrame 之 后 ， 就 可 以 通过 其 plot 方 法 绘制 出 一 张 趋势 图 了 (如 图 
2-9 所 示 ) : 


In [414]: dny_ts.plot() 
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图 2-9: 各 年 出 生 的 男孩 中 名 字 以 d/n/y 结 尾 的 人 数 比例 


变 成 女孩 名 字 的 男孩 名 字 (以 及 相反 的 情况 ) 
另 一 个 有 趣 的 趋势 是 ， 早 年 流行 于 男孩 的 名 字 近 年 来 “变性 了 ”， 例 如 Lesley 或 Leslie。 
回 到 top1000 数 据 集 ， 找 出 其 中 以 “lesl” 开 头 的 一 组 名 字 : 

In [415]: all_names = topl000.name.unique() 

In [416]: mask = np.array(['lesl' in x.lower() for x in all_names]) 

In [417]: lesley like = all_names[mask] 


In [418]: lesley like 
Out[418]: array([Leslie, Lesley, Leslee, Lesli, Lesly], dtype=object) 


然后 利用 这 个 结果 过 滤 其 他 的 名 字 ， 并 按 名 字 分 组 计算 出 生 数 以 查看 相对 频率 ， 
In [419]: filtered = top1000[top1000.name.isin(lesley_like)] 


In [420]: filtered.groupby('name').births.sum() 





Out[420]: 

name 

Leslee 1082 
Lesley 35022 
Lesli 929 
Leslie 370429 
Lesly 10067 


Name: births 


接 下 来 ， 我 们 按 性 别 和 年 度 进行 聚合 ， 并 按 年 度 进行 规范 化 处 理 : 


In [ea]: table = ftered.pivot_table('births'，rows="year'， 
cols="'sex', aggfunc=" sum') 
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In [422]: table = table.div(table.sum(1), axis=0) 
In [423]: table.tail() 

Out[423]: 

sex F h 

year 

2006 1 NaN 

2007 1 NaN 

2008 1 NaN 

2009 1 NaN 

2010 1 NaN 


现在 ， 我 们 就 可 以 轻松 绘制 一 张 分 性 别 的 年 度 曲线 图 了 (如 图 2-10 所 示 ) : 


In [425]: table.plot(style={'M': "k-', 'F': "k--'}) 
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图 2-10; 各 年 度 使 用 “Lesley 型 ”名 字 的 男女 比例 


小 结 及 展望 


2020 


本 章 中 的 这 些 例子 都 非常 简单 ， 但 它们 可 以 让 你 大 致 了 解 后 续 章 节 的 相关 内 容 。 本 书 关 
注 的 焦点 是 工具 而 不 是 那些 复杂 精妙 的 分 析 方法 。 掌 握 本 书 所 介绍 的 技术 将 使 你 能 够 立 


马 开展 自己 的 分 析 工 作 (假设 你 已 经 知道 要 做 什么 了 ) 。 
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第 3 章 
IPython: 一 种 交互 式 
计算 和 开发 环境 





为 无 为 ， 事 无 事 ， 味 无 味 。 大 小 多 少 。 报 无 以 侍 。 
图 难于 其 易 ， 为 大 于 其 细 ; 

天 下 难事 ， 必 作 于 易 ， 天 下 大 事 ， 必 作 于 细 。 
一 夫子 


人 们 经 常 问 我 ，“ 你 的 Python 开发 环境 是 什么 ?” ”我 的 回答 基本 永远 都 是 “IPython 外 加 

-个 文本 编辑 器 ”。 如 果 想 要 得 到 更 加 高 级 的 图 形 化 工具 和 代码 自动 完成 功能 ， 你 也 可 
以 考虑 用 一 款 集成 开发 环境 (IDE) 来 代替 文本 编辑 器 。 即 便 如 此 ， 我 仍然 强烈 建议 你 
将 IPython 作 为 工作 中 的 重要 工具 。 有 的 IDE 其 至 本 身 就 集成 了 IPython， 所 以 说 两 全 其 美 
的 办 法 还 是 有 的 。 


2001 年 ，Fernando Pkrez 为 了 得 到 一 个 更 为 高 效 的 交互 式 Python 解释 器 而 启动 了 一 个 业 
余 项 目 ， 于 是 IPython 项 目 诞生 了 。 在 接 下 来 的 11 年 中 ， 它 逐渐 被 公认 为 现代 科学 计算 中 
最 重要 的 Python 工 具 之 二 IPython 本 身 并 没有 提供 任何 的 计算 或 数据 分 析 功能 ， 其 设计 
目的 是 在 交互 式 计算 和 软件 开发 这 两 个 方面 最 大 化 地 提高 生产 力 。 它 鼓励 一 种 “执行 一 
探索 ” (execute explore) 的 工作 模式 ， 而 不 是 许多 其 他 编程 语言 那 种 “编辑 一 编译 一 
运行 ” (edit-complie-run) 的 传统 工作 模式 。 此 外 ， 它 跟 操作 系统 sheH 和 文件 系统 之 间 
也 有 着 非常 紧密 的 集成 。 由 于 大 部 分 的 数据 分 析 代 码 都 含有 探索 式 操作 ( 试 误 法 和 迁 代 
法 ) ， 因 此 IPython (在 绝 大 多 数 情况 下 ) 将 有 助 于 提高 你 的 工作 效率 。 


当然 了 ，IPython 项 目 现在 已 经 不 再 具 是 一 个 加 强 版 的 交互 式 Python shell， 它 还 有 一 个 可 
以 直接 进行 绘图 操作 的 GUI 控制 台 、 一 个 基于 Web 的 交互 式 笔记 本 ， 以 及 一 个 轻 量 级 的 
快速 并 行 计算 引擎 。 此 外 ， 跟 许多 其 他 专 为 程序 员 设计 (以 及 由 程序 员 设计 ) 的 工具 一 
样 ， 它 也 是 高 度 可 定制 的 。 我 将 在 本 章 最 后 介绍 一 些 这 样 的 功能 。 
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由 于 IPython 的 核心 功能 是 交互 ， 所 以 在 没有 动态 控制 台 的 情况 下 ， 本 章 中 的 某 些 功能 很 
难说 得 清楚 。 如 果 这 是 你 第 一 次 学 习 IPython， 那 我 建议 你 照 着 例子 实际 动手 试 试 ， 感 觉 
一 下 到 底 是 怎么 一 回 事 。 跟 所 有 由 键盘 驱动 的 控制 台 环境 一 样 ， 锻 炼 对 常用 命令 的 肌肉 
记忆 是 学 习 曲线 中 不 可 或 缺 的 一 部 分 。 





注意 ;在 第 一 次 阅读 时 ， 本 章 的 许多 内 容 都 可 跳 过 不 看 ， 因为 它们 对 理解 本 书 其 余 的 内 容 没 有 影 
响 。 本 章 的 目的 是 让 你 对 IPython 所 提供 的 功能 有 一 个 全 面 的 了 解 。 





IPython 基 础 


你 可 以 通过 命令 行 启动 TPython， 就 像 启 动 标准 Python 解释 器 那样 ， 只 是 把 命令 改 为 
ipython 罢 了 : 


$ ipython 
Python 2.7.2 (default, May 27 2012, 21:26:12) 
Type "copyright", "credits" or "license" for more information。 


IPython 0.12 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features。 

%quickref -> Quick reference- 

help-> Python'"s own help system. 

object? -> Details about ‘object', use 'object??' for extra details. 


In [1]:a=5 
In [2]:a 
Out[2]: 5 


你 可 以 在 这 里 执行 任何 Python 语句 ， 只 需 将 其 输入 然后 按 下 回 车 键 就 行 了 。 如 果 只 是 在 
IPython 中 和 输入 了 一 个 变量 ， 那 么 它 将 会 显示 出 该 对 象 的 一 个 字符 串 表 示 : 评 庄 ! 


In[541]: import numpy as np 
In[542]: data = {i : randn() for i in range(7)}? 


In [543]: data 

Out[543]: 

{0: 0.5580886709219381, 
1: 0.25701015249982423， 
0.8876099192477288， 
.0210657329557034， 
-0.21799201419817044， 





2 
3 
4: 


: 从 输入 输出 提示 符 来 看 ， 作 者 在 这 两 段 之 间 做 了 不 少 事情 ， 所 以 如 果 出 现 randn 找 不 到 的 情 
况 ， 请 先 执 行 from numpy.random import randn。 
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5: 1.1388001234975833, 
6: -0.5209890532927175} 


许多 Python 对 象 都 被 格式 化 为 可 读 性 更 好 (或 者 说 排版 更 好 ) 的 形式 ， 这 跟 print 的 普通 
输出 形式 有 着 显著 区 别 。 如 果 在 标准 Python 解释 器 中 打印 上 面 那个 字典 对 象 ， 其 可 读 性 
就 没 那么 好 了 : 

>>> from numpy.random import randn 

>>> data = {i : randn() for i in range(7)} 

>>> print data 

{0: -1.5948255432744511, 1: 0.10569006472787983, 2: 1.972367135977295， 

3: 0.15455217573074576, 4: -0.24058577449429575, 5: -1.2904897053651216, 

6: 0.3308507317325902} 
IPython 还 可 以 方便 地 执行 任意 代码 块 (通过 少量 优雅 的 复制 粘贴 操作 ) 和 整个 Python 肢 
本 。 稍 后 就 会 对 该 功能 进行 介绍 。 


Tab 键 自动 完成 

从 表面 上 看 ，IPython 就 像 是 一 个 化 了 谈 妆 的 交互 式 Python 解释 器 。 数 学 软件 
(Mathematica) 用 户 可 能 会 对 标号 式 的 输入 输出 提示 符 眼 熟 。Tab 键 自动 完成 功能 是 对 
标准 Python shell 的 主要 改进 之 一 ， 大 部 分 交互 式 数据 分 析 环 境 都 有 这 个 功能 。 在 shell 中 
输入 表达 式 时 ， 只 要 按 下 Tab 键 ， 当 前 命名 空间 中 任何 与 已 输入 的 字符 串 相 匹配 的 变量 
(对 象 、 函 数 等 ) 就 会 被 找 出 来 : 


In [1]: an_apple = 27 
In [2]: an_example = 42 


In [3]: ankTaby 译 注 2 


an_apple and an_example any 译 注 3 


在 这 个 例子 中 可 以 看 到 ，IPython 将 我 定义 的 两 个 变量 都 显示 出 来 了 ， 此 外 还 显示 了 
Python 关键 字 and 和 内 置 函 数 any。 当 然 ， 你 也 可 以 在 任何 对 象 后 面 输入 一 个 句点 以 便 自 
动 完 成 方法 和 属性 的 输入 : 

In [3]: b= [1, 2, 3] 

In [4]: b.<Tab> 


b.append b.extend b.insert b.remove b.sort 
b.count b.index b.pop b.reverse 








译注 2: 后 面 的 <Tab> 只 是 一 个 按键 说 明 而 已 ,不 用 输入 。 顺便 说 明 一 下 ， 按 完 Tab 键 之 后 ， 已 输入 
的 内 容 会 在 下 一 行 重复 出 现 ， 行 号 也 是 一 样 的 ， 直 接 接着 往 下 输入 就 行 了 。 


译注 3: 根据 软件 版 本 、 配 置 以 及 当前 上 下 文 的 不 同 ， 这 里 得 到 的 结果 可 能 会 比 书 上 的 多 。 





还 可 以 应 用 在 模块 上 : 
In [1]: import datetime 


In [2]: datetime.<Tab> 


datetime .MAXYEAR datetime.datetime datetime.timedelta 
datetime.MINYEAR datetime.datetime_CAPI datetime.tzinfo 
datetime.date datetime.time 





注意 : IPython 默 认 会 隐藏 那些 以 下 划 线 开 头 的 方法 和 属性 ， 比 如 魔术 方法 (magic method) 以 及 
内 部 的 “私有 ”方法 和 属性 ， 其 目的 是 避免 在 屏幕 上 显示 一 堆 乱七八糟 的 东西 (也 为 了 避 
免 把 Python 新 人 搞 量 ! ) 。 其 实 这 些 也 是 可 以 通过 Tab 键 自动 完成 的 ， 只 是 你 得 先 输入 一 个 
下 划 线 才 行 。 如 果 你 就 是 喜欢 能 总 是 看 到 这 些 方法 ， 直 接 修改 IPython 配 置 文件 中 的 相关 设 
置 就 可 以 了 。 


Tab 键 自动 完成 功能 不 只 可 以 用 于 搜索 命名 空间 和 自动 完成 对 象 或 模块 属性 。 当 你 输入 
任何 看 上 去 像 是 文件 路 径 的 东西 时 (即使 是 在 一 个 Python 字 符 串 中 ) ， 按 下 Tab 键 即 可 找 
出 电脑 文件 系统 中 与 之 匹配 的 东西 : 


In [3]: book_scripts/kTaby 详 注 4 

book_scripts7cprof_example.py book_scripts/ipython_script_test.py 
book_scripts/ipython_bug.py book_scripts/prof_mod.py 

In [3]: path = "book_scripts/<Tab> 

book_scripts/cprof_example.py book_scripts/ipython_script_test.py 
book_scripts/ipython_bug.py book_scripts/prof_mod.py 


如 果 再 结合 %run 命 令 (参见 后 面 内 容 ) ， 该 功能 将 显著 减少 你 项 键盘 的 次 数 。 
Tab 键 自动 完成 功能 还 可 用 于 函数 关键 字 参 数 (包括 等 号 (=) ! ) 。 


在 变量 的 前 面 或 后 面 加 上 一 个 问号 (?) 就 可 以 将 有 关 该 对 象 的 一 些 通用 信息 显示 
出 来 : 


In [545]: b? 

Type: list 

String Form:[1, 2, 3] 

Length: 3 

Docstring: 

list() -> new empty list 

list(iterable) -> new list initialized from iterable's items 





译注 4: 注意 ， 要 使 用 正 儿 杠 (/) ,不然 认 不 出 来 。 此 外 ， 文 件 央 或 文件 名 中 间 不 能 有 空格 ， 不 
然 也 无 法 正常 继续 操作 。 
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这 就 叫做 对 象 内 省 (object introspection) 齐 让 5。 如 果 该 对 象 是 一 个 函数 或 实例 方法 ， 则 
其 docstring (如 果 有 的 话 ) 也 会 被 显示 出 来 : 


def add_numbers(a, b): 
Add two numbers together 


Returns 


the_sum : type of arguments 


return a+b 
然后 可 以 利用 ?来 显示 这 段 docstring: 


In [547]: add_numbers? 

Type: function 

String Form:cfunction add_numbers at Ox5fad848> 
File: book scripts/<ipython-input-546-5473012eeb65> 
Definition: add_numbers(a, b) 

Docstring: 

Add two numbers together 

Returns 


the_sum : type of arguments 
使 用 ?? 还 将 显示 出 该 函数 的 源 代码 (如 果 可 能 的 话 ) : 


In [548]: add_numbers?? 
Type: function 
String Form:<function add_numbers at Ox5fad848> 
File: book_scripts/<ipython-input-546-5473012eeb65> 
Definition: add_numbers(a, b) 
Source: 
def add_numbers(a, b): 

Add two numbers together 

Returns 


the_sum : type of arguments 


Teturn a + b 


?还 有 一 个 用 法 ， 即 搜索 IPython 命 名 空间 ， 类 似 于 标准 UNIX 或 Windows 命 令 行 中 的 那 种 
用 法 。 一 些 字符 再 配 以 通配符 (*) 即 可 显示 出 所 有 与 该 通配符 表达 式 相 匹 配 的 名 称 。 
例如 ， 我 们 可 以 列 出 NumPy 顶 级 命名 空间 中 含有 “load” 的 所 有 函数 : 

In [549]: np.*load*? 


np.load 
np.loads 


也 有 译作 内 视 、 自 省 的 ， 不 过 更 多 译作 内 省 。 


译 
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np.loadtxt 
np.pkgload 


%run 命 令 
在 IPython 会 话 环境 中 ， 所 有 文件 都 可 以 通过 %run 命 令 当做 Python 程序 来 运行 。 假 设 你 在 
ipython_script_test.py 中 存放 了 一 段 简单 的 脚本 ， 如 下 所 示 : 


def F(x, y, 2): 
return (x + y) / z 


a = 
b = 
c= 
result = f(a, b, c) 


只 要 将 文件 名 传 给 %run 就 可 以 运行 了 : 


In [550]: Xrun ipython_script_test.pyi*iE6 


脚本 是 在 一 个 空 的 命名 空间 中 运行 的 (没有 任何 import， 也 没有 定义 任何 其 他 的 变 
量 ) ， 所 以 其 行为 应 该 跟 在 标准 命令 行 环境 (通过 python scriptpy 启 动 的 ) 中 执行 时 一 
样 。 此 后 ， 该 文件 中 所 定义 的 全 部 变量 (还 有 各 种 import、 函 数 和 全 局 变量 ) 就 可 以 在 
当前 IPython shell 中 访问 了 (除非 发 生 了 异常 ) : 


In [551]: < 
out[551]: 7.5 


In [552]: result 
Out[552]: 1.4666666666666666 


如 果 Python 脚 本 需要 用 到 命令 行 参数 (通过 sys.argv 访 问 ) ， 可 以 将 参数 放 到 文件 路 径 
的 后 面 ， 就 像 在 命令 行 上 执行 那样 。 


注意 ， 如 果 希 望 脚本 能 够 访问 在 交互 式 IPython 命 名 空间 译注 7 中 定义 的 变量 ， 那 就 应 该 使 用 %run -i 
而 不 是 %run。 





中 断 正在 执行 的 代码 
任何 代码 在 执行 时 (无 论 是 通过 %run 执 行 的 脚本 ， 还 是 长 时 间 运 行 的 命令 ) ， 只 要 按 下 


译注 6: 注意 文件 的 路 径 ， 这 里 实际 上 用 的 是 默认 路 径 。 简 单一 点 的 办 法 就 是 直接 写 绝对 路 径 ， 肯 
定 不 出 错 。 


译注 7: 该 命名 空间 的 名 字 就 是 interactive。 
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“Ctrl-C”， 就 会 引发 一 个 KeyboardInterrupt。 除 一 些 非常 特殊 的 情况 之 外 ， 绝 大 部 分 
Python 程序 都 将 立即 停止 执行 。 





警告 : 当 Ppython 代 码 已 经 调用 了 菜 个 已 编译 的 扩展 模块 时 ， 按 下 “Ctrl-C” 将 无 法 使 程序 立即 停止 
执行 。 在 这 种 情况 下 ， 要 么 只 能 等 待 Python 解释 器 重新 获得 控制 权 ， 要 么 只 能 通过 操作 系 











执行 剪贴 板 中 的 代码 

在 IPython 中 执行 代码 的 最 简单 方式 是 粘贴 剪贴 板 中 的 代码 。 虽 然 这 种 做 法 很 粗糙 ， 但 在 
实际 工作 中 却 很 有 用 。 比 如 说 ， 在 开发 一 个 复杂 或 费时 的 应 用 程序 时 ， 你 可 能 希望 能 一 
段 一 段 地 执行 脚本 ， 以 便 查看 各 个 阶段 所 加 载 的 数据 以 及 产生 的 结果 。 又 比如 说 ， 你 在 
网 上 找 了 一 段 合用 的 代码 ， 但 又 不 想 专门 为 其 新 建 一 个 .py 文件 。 


多 数 情况 下 ， 我 们 都 可 以 通过 “Ctr1-Shift-v” 将 剪贴 板 中 的 代码 片段 粘贴 出 来 在 3。 
注意 ， 这 并 不 是 万 试 万 灵 的 ， 因 为 这 种 粘贴 方式 模拟 的 是 在 IPython 中 逐 行 输 入 代码 ， 换 
行 符 会 被 处 理 为 creturny。 也 就 是 说 ， 如 果 你 所 粘贴 的 是 一 段 缩 进 代码 ， 且 其 中 有 一 个 
空 行 ，IPython 就 会 认为 缩 进 在 空 行 那里 结束 了 。 当 执行 到 缩 进 块 后 面 那 行 代码 时 ， 就 会 
引发 一 个 IndentationError。 例 如 下 面 这 段 代 码 : 

x=5 

y=7 


if x > 5: 
x+=1 


y=8 

直接 粘贴 是 不 行 的 : 
In [1]:x=5 
In [2]:y=7 


In [3]: if x > 5: 
四 X += 1 





In [4]: y=8 
IndentationError: unexpected indent 


If you want to paste code into IPython，try the %paste and %cpaste magic functions. 


译注 8: Windows 中 此 法 行 不 通 ， 需 要 用 右键 莱 单 中 的 粘贴 功能 ， 否 则 仅 显 示 第 一 行 。 
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正如 错误 提示 信息 所 说 的 那样 ， 我 们 应 该 使 用 %paste 和 %cpaste 这 两 个 魔术 函数 。%paste 
可 以 承载 剪贴 板 中 的 一 切 文本 二 ?9， 并 在 shell 中 以 整体 形式 执行 中 5; 


In [6]: %paste 
x=5 
y=7 
二 区 人 
X += 工 


y=8 
所 -- End pasted text -- 





咯 告 ， 根据 你 的 系统 平台 以 及 Python 的 安装 情况 ，%paste 可 能 会 不 起 作用 。EPDFree (在 第 1 章 中 
介绍 过 ) 等 打包 发 布 的 版 本 应 该 没有 问题 。 





%cpaste 跟 Xpaste 差 不 多 评注 4 ， 只 不 过 它 多 出 了 一 个 用 于 粘贴 代码 的 特殊 提示 符 而 已 


In [7]: %cpaste 
pasting code; enter '--' alone on the line to stop or use Ctrl-D. 
:X=5 





对 于 %cpaste 块 ， 在 最 终 执 行 之 前 ， 你 想 粘贴 多 少 代 码 就 粘贴 多 少 。 如 果 想 在 执行 那些 
粘贴 进去 的 代码 之 前 先 检查 一 番 ， 就 可 以 考虑 使 用 %cpaste。 如 果 发 现 粘贴 的 代码 有 
错 ， 只 需 按 下 “Ctrl-C” 即 可 终止 %paste 提 示 符 。 


后 面 我 将 会 介绍 IPython HTML Notebook ， 它 使 我 们 能 以 一 种 基于 浏览 器 的 notebook 格 式 
逐 段 对 可 执行 代码 单元 进行 分 析 。 


IPython 跟 编辑 器 和 IDE 之 间 的 交互 


某 些 文本 编辑 器 (如 Emacs 和 vim) 带 有 一 些 能 将 代码 块 直接 发 送 到 IPython shell 的 第 三 
方 扩展 。 详 情 请 参考 IPython 网 站 或 搜索 引擎 。 


注意 ， 这 里 说 的 是 “一 切 ”。 





译注 10: 注意 ， 由 于 是 立即 整体 执行 ， 所 以 不 要 复制 %paste。 没 事 干 的 话 倒 是 可 以 试 试 。 
译注 11: 建议 始终 用 这 个 ， 虽 然 稍微 麻烦 一 点 ， 但 是 出 错 的 可 能 性 小 很 多 。 
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某 些 IDE (如 PyDev plugin for Eclipse 和 Python Tools for Visual Studio (微软 出 品 ) ) 都 
集成 了 IPython 终 端 应 用 程序 。 如 果 你 既 想 用 IDE 又 不 想 放弃 [Python 控制 台 ， 这 可 能 是 个 
不 错 的 选择 。 


键盘 快捷 键 


IPython 提 供 了 许多 用 于 提示 符 导航 (Emacs 文本 编辑 器 或 UNIX bash shell 的 用 户 对 此 会 
很 熟悉 ) 和 查阅 历史 shell 命 令 ( 详 见 下 一 节 ) 的 键盘 快捷 键 。 表 3-1 总 结 了 最 常用 的 一 些 
快捷 键 。 图 3-1 说 明了 几 个 光标 移动 快捷 键 的 功能 。 


Ch Cf 


4 
| In [27]: a_variable In [27]: avari Ck 
i Ce In [27]: Cu 


图 3-1: 几 个 IPython 键 盘 快 捷 键 的 用 法 
表 3-1: IPython 标 准 键盘 快捷 键 


命令 说 明 

Ctrl-P 或 上 箭头 键 后 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命 
Ctrl-N 或 下 箭头 键 前 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命令 
Ctrl-R 按 行 读 取 的 反 向 历史 搜索 (部 分 匹配 ) 
Ctrl-Shift-v 从 剪贴 板 粘贴 文本 

Ctrl-C 中 止 当前 正在 执行 的 代码 

Ctrl-A 将 光标 移动 到 行 首 

Ctrl-E 将 光标 移动 到 行 尾 

Ctrl-K 删除 从 光标 开始 至 行 尾 的 文本 

ctr-U 清除 当前 行 的 所 有 文本 汪汪 

Ctrl-F 将 光标 向 前 移动 一 个 字符 

Ctrl-b 将 光标 向 后 移动 一 个 字符 

_CtrI-L 清 屏 





译注 12: 这 个 快捷 键 的 功能 只 是 跟 Ctrl-K 相 反而 已 ， 即 删除 从 光标 开始 至 行 首 的 文本 ， 并 非 完 全 
删除 。 
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异常 和 跟踪 


如 果 %r un 某 段 脚本 或 执行 某 条 语句 时 发 生 了 异常 ，IPython 默 认 会 输出 整个 调用 栈 跟踪 
(traceback) ， 其 中 还 会 附 上 调用 栈 各 点 附近 的 几 行 代码 作为 上 下 文 参考 。 


In [553]: %run cho3/ipython_bug.py 
AssertionError Traceback (most recent call last) 
/home/wesm/codeyipython/IPython/utils/py3compat.pyc in execfile(fname, *where) 


176 else: 

177 filename = fname 
--> 178 _builtin_.execfile(filename, *where) 
book_scripts/cho3/ipython_bug.py in <module>() 

13 throws_an_exception() 


14 
---》15 calling_things() 
book_scripts/cho3/ipython_bug.py in calling_things() 
11 def calling_things(): 


12 works_fine() 
= throws_an_exception() 
14 


15 calling_things() 
book_scripts/cho3/ipython_bug.py in throws_an_exception() 


7 a=5 
8 b=6 
----》9 assert(a + b == 10) 


2 calling_things(): 
AssertionError: 
拥有 额外 的 上 下 文 代码 参考 是 它 相 对 于 标准 Python 解 释 器 的 一 大 优势 。 上 下 文 代码 参考 
的 数量 可 以 通过 %xmode 魔 术 命令 进行 控制 ， 既 可 以 少 (与 标准 Python 解释 器 相同 ) 也 可 
以 多 ( 带 有 函数 参数 值 以 及 其 他 信息 ) 。 本 章 稍 后 还 会 讲 到 如 何在 发 生 异 常 之 后 进入 跟 
踪 栈 进行 交互 式 的 事后 调试 (post-mortem debugging) 。 


魔术 命令 
IPython 有 一 些 特殊 命令 (被 称 为 魔术 命令 (Magic Command) ) ,它们 有 的 为 常见 任务 
提供 便利 ， 有 的 则 使 你 能 够 轻松 控制 IPython 系 统 的 行为 。 魔 术 命令 是 以 百 分 号 % 为 前 级 
的 命令 。 例 如 ， 你 可 以 通过 %timeit 这 个 魔术 命令 检测 任意 Python 语句 (如 矩阵 乘法 ) 的 
执行 时 间 ( 稍 后 将 对 此 进行 详细 讲解 ) : 

In [554]: a = np.random.randn(100, 100) 


In [555]: %timeit np.dot(a, a) 
10000 loops, best of 3: 69.1 us per loop 
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魔术 命令 可 以 看 做 运行 于 IPython 系 统 中 的 命令 行程 序 。 它 们 大 都 还 有 一 些 “ 命 令 行 选 
项 ”， 使 用 ? 即 可 查看 其 选项 : 
In [1]: %reset? 


Resets the namespace by removing all names defined by the user. 


Parameters 





force reset without asking for confirmation. 


-s : 'Soft' reset: Only clears your namespace, leaving history intact. 
References to objects may be kept. By default (without this option), 
we do a ‘hard’ reset, giving you a new session and removing all 
references to objects from the current session. 





In [8]: 'a' in _ip.user_ns 
Out[8]: True 


In [9]: %reset -f 


In [1]: ‘a' in _ip.user_ns 
Out[1]: False 


魔术 命令 默认 是 可 以 不 带 百 分 号 使 用 的 ， 只 要 没有 定义 与 其 同名 的 变量 即 可 。 这 个 技术 
叫做 automagic， 可 以 通过 %automagic 打 开 或 关闭 。 

由 于 可 以 在 IPython 系 统 中 直接 访问 它 的 文档 ， 因 此 我 建议 你 浏览 一 下 所 有 这 些 特殊 的 
命令 (输入 %quickref 或 %magic 即 可 ) 。 我 将 着 重 讲解 几 个 重要 的 有 助 于 交互 式 计算 和 
Python 开 发 的 魔术 命令 。 


表 3-2: 常用 的 IPython 魔 术 命 令 


命令 说 明 

9%quickref 显示 IPython 的 快速 参考 

%magic 显示 所 有 魔术 命令 的 详细 文档 

%debug 从 最 新 的 异常 跟踪 的 底部 进入 交互 式 调试 器 
Whist 打印 命令 的 输入 (可 选 输出 ) 历史 

%pdb 在 异常 发 生 后 自动 进入 调试 器 

9%paste 执行 剪贴 板 中 的 Python 代码 
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表 3-2: 常用 的 IPython 魔 术 命令 ( 续 ) 


命令 说 明 

9%cpaste 打开 一 个 特殊 提示 符 以 便 手 工 粘贴 待 执行 的 Python 代码 
Wreset 删除 interactive 命 名 空间 中 的 全 部 变量 /名 称 

%page OBJECT 通过 分 页 器 打印 输出 OBJECT 

run script.py 在 IPython 中 执行 一 个 Python 脚本 文件 

9%prun statement 通过 cpProfile 执 行 statement， 并 打印 分 析 器 的 输出 结果 

96time statement 告 statement 的 执行 时 间 

9%timeit statement 多 次 执行 statement 以 计算 系 综 平均 执行 时 间 。 对 那些 执行 时 

间 非 常 小 的 代码 很 有 用 

%who、%who_ls、%whos 显示 interactive 命 名 空间 中 定义 的 变量 ， 信 息 级 别 / 宛 余 度 可 变 
9%xdel variable _ 删 除 variable， 并 尝试 清除 其 在 IPython 中 的 对 象 上 的 一 切 引 用 
基于 Qt 的 富 GUI 控 制 台 


IPython 团 队 开发 了 一 个 基于 QI 框架 (其 目的 是 为 终端 应 用 程序 提供 诸如 内 做 图 片 、 多 行 
编辑 、 语 法 高 亮 之 类 的 富 文本 编辑 功能 ) 的 GUI 控制 台 ( 见 图 3-2) 。 如 果 你 已 经 安装 了 
PyQt 或 PySide， 使 用 下 面 这 条 命令 来 启动 的 话 即 可 为 其 添加 绘图 功能 ， 


ipython qtconsole --pylab=inline 


Qt 控制 台 可 以 通过 标签 页 的 形式 启动 多 个 IPython 进 程 ， 这 就 使 你 能 够 在 多 个 任务 之 间 轻 
松 切 换 。 它 也 可 以 跟 IPython HTML Notebook 应 用 程序 共享 同一 个 进程 ， 稍 后 我 将 专门 
对 此 进行 讲解 。 


matplotlib 集 成 与 pylab 模 式 

导致 [Python 广 泛 应 用 于 科学 计算 领域 的 部 分 原因 是 它 能 跟 matplotlib 这 样 的 库 以 及 其 他 
GUI 工具 集 默 契 配 合 。 即 使 你 从 未 使 用 过 matplotlib 也 不 用 担心 ， 本 书 稍 后 会 对 其 进行 详 
细 讲 解 。 如 果 在 标准 Python shell 中 创建 一 个 matplotlib 绘 图 窗口 ， 你 就 会 郁闷 地 发 现 ， 
GUI 的 事件 循环 会 接管 Python 会 话 的 控制 权 ， 直 到 该 绘图 窗口 关闭 为 止 。 这 自然 无 法 实 
现 交 互 式 的 数据 分 析 和 可 视 化 ， 因 此 IPython 对 各 个 GUI 框 架 进行 了 专门 的 处 理 以 使 其 能 
够 跟 shell 配 合 得 天 衣 无 颖 。 


通常 ， 我 们 通过 在 启动 IPython 时 加 上 --pylab (注意 是 两 个 短 划 线 ) 标记 来 集成 
matplotlib ( 见 图 3-3) 。 


$ ipython --pylab 
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ii 四 = pltimread( "boo 


: imshow(ing) 
: matplotlIb. 1nage. Axeslmage at Oxa2eces0> 


00 0 


: plot(randn( 














图 3-2: IPython 的 Qt 控制 台 


这 样 会 导致 几 个 结果 。 第 一 ，IPython 会 启用 默认 GUI 后 台 集 成 ， 这 样 matplotlib 绘 图 窗 
口 的 创建 就 没 问 题 了 。 第 二 ，NumPy 和 matplotlib 的 大 部 分 功能 会 被 引入 到 最 顶层 的 
interactive 命 名 空间 以 产生 一 个 交互 式 的 计算 环境 (就 像 MATLAB 和 其 他 领域 特定 型 科 
学 计算 环境 那样 ) 。 也 可 以 通过 %gui 对 此 进行 手工 设置 (详情 请 执行 Xgui?) 。 


使 用 命令 历史 


IPython 维 护 着 一 个 位 于 硬盘 上 的 小 型 数据 库 ， 其 中 含有 你 执行 过 的 每 条 命令 的 文本 。 这 
样 做 有 几 个 目的 ， 

。 。 只 需 很 少 的 按键 次 数 即 可 搜索 、 自 动 完成 并 执行 之 前 已 经 执行 过 的 命令 。 

。 。 在 会 话 间 持 久 化 命令 历史 。 

。 。 将 输入 /输出 历史 记录 到 日 志文 件 。 
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Neoo+rr ee 














图 3-3: pylab 模 式 : IPython 和 matplotlib 窗 口 


搜索 并 重用 命令 历史 


对 于 许多 人 来 说 ， 能 够 搜索 并 执行 前 面 的 命令 是 非常 有 用 的 功能 。IPython 倡 导 的 是 一 种 
和 迭代 的 、 交 互 式 的 开发 模式 : 你 可 能 常常 会 发 现 自己 总 是 在 重复 输入 相同 的 命令 (比如 
%run 命 令 或 其 他 的 代码 片段 ) 。 假 设 你 已 经 执行 了 : 


In[7]: %run first/second/third/data_script.py 


而 在 查看 其 执行 结果 后 (假设 其 已 经 成 功 执行 完毕 ) 发 现 计算 过 程 不 对 。 在 找 出 问题 
原因 并 修改 了 data_script.py 之 后 ， 只 需 输 入 %run 命 令 的 前 几 个 字符 并 按 “Ctrl-P” 键 
或 上 箭头 键 即 可 。 这 样 就 会 搜索 出 命令 历史 中 第 一 个 与 你 输入 的 字符 相 匹配 的 命令 。 多 
次 按 “Ctr1-P” 键 或 上 箭头 键 就 会 在 命令 历史 中 不 断 搜索 。 如 果 你 错过 了 想 要 的 那 条 命 
令 也 没关系 ， 你 可 以 按 “Ctr1-N” 键 或 下 箭头 键 在 命令 历史 中 前 向 搜索 。 只 要 多 操作 几 
次 ， 以 后 你 会 想 都 不 想 地 按 下 这 些 键 ! 


“Ctrl-R” 用 于 实现 部 分 增 量 搜索 ， 跟 UNIX 型 shell 中 的 readline 所 提供 的 功能 一 样 。 在 
Windows 上 ，IPython 模 拟 了 readline 功 能 。 按 下 “Ctrl-R” 并 输入 你 想 搜索 的 行 中 的 几 个 
字符 : 


In [1]: a_command = foo(x, y, z) 
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(reverse-i-search) com': a_command = foo(x，y，z) 


按 下 “Ctrl-R” 将 会 循环 搜索 命令 历史 中 每 一 条 与 输入 相符 的 行 。 


输入 和 输出 变量 

忘记 把 函数 结果 赋值 给 变量 是 一 件 让 人 很 郁闷 的 事情 。 好 在 IPython 会 将 输入 〈 你 输入 的 
那些 文本 ) 和 输出 (返回 的 对 象 ) 的 引用 保存 在 一 些 特殊 变量 中 。 最 近 的 两 个 输出 结 
分 别 保存 在 _ (一 个 下 划 线 ) 和 __ (两 个 下 划 线 ) 变量 中 : 


In [556]: 2 ** 27 
Out[556]: 134217728 


In [557]: _ 
Out[557]: 134217728 


输入 的 文本 被 保存 在 名 为 .ix 的 变量 中 ， 其 中 X 是 输入 行 的 行 号 。 每 个 输入 变量 都 有 一 个 
对 应 的 输出 变量 X。 比 如 说 ， 在 输入 完 第 27 行 后 ， 就 会 产生 两 个 新 变量 _27 (输出 变量 ) 
和 _i27 (输入 变量 ) 。 

In [26]: foo = ‘bar' 


In [27]: foo 
Out[27]: ‘bar’ 


In [28]: _i27 
Out[28]: u'foo’ 


In [29]: _27 
Out[29]:“bar" 


由 于 输入 变量 是 字符 串 ， 因 此 可 以 用 Python 的 exec 关 键 字 重 新 执行 : 





In [30]: exec _i27 


有 几 个 魔术 命令 可 用 于 控制 输入 和 输出 历史 。%h ist 用 于 打印 全 部 或 部 分 输入 历史 ， 可 
以 选择 是 否 带 行 号 。%reset 用 于 清空 interactive 命 名 空间 ， 并 可 选择 是 否 清空 输入 和 输出 
缓存 。%xde1 用 于 从 IPython 系 统 中 移 除 特定 对 象 的 一 切 引 用 。 详 细 信 息 请 参考 相应 魔术 
命令 的 文档 。 





警告 在 处 理 非常 大 的 数据 集 时 ， 一 定 要 注意 1Python 的 输入 输出 历史 ， 它 会 导致 所 有 对 象 引用 
都 无 法 被 垃圾 收集 器 处 理 ( 即 释放 内 存 ) ， 即 使 用 de1 关 键 字 将 变量 从 interactive 命 名 空间 
中 删除 也 不 行 。 对 于 这 种 情况 ， 谨 慎 地 使 用 %xde1l 和 %reset 将 有 助 于 避免 出 现 内 存 方面 的 
问题 。 
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记录 输入 和 输出 
IPython 能 够 记录 整个 控制 台 会 话 ， 包 括 输入 和 输出 。 执 行 %logstart 即 可 开始 记录 
日 志 : 

In [3]: %logstart 

Activating auto-logging. Current session state plus future input saved. 

Filename : ipython log.py 

Mode : rotate 

output logging : False 

Raw input log : False 

Timestamping 。 : False 

State : active 
IPython 的 日 志 功 能 可 以 在 任何 时 刻 开启 ， 它 将 记录 你 的 整个 会 话 (包括 此 前 的 命令 ) 。 
因此 ， 如 果 你 代码 的 过 程 中 ， 突 然 想 要 保存 所 有 工作 的 时 候 ， 直 接 启 动 日 志 功 能 就 
行 了 。 并 ogstart 的 具体 选项 (比如 修改 输出 文件 路 径 ) 请 参考 其 文档 ， 此 外 还 可 以 看 看 
几 个 与 之 配套 的 魔术 命令 %logoff、%logon、%1ogstate 以 及 %logstop。 


与 操作 系统 交互 


IPython 的 另 一 个 重要 特点 就 是 它 跟 操作 系统 shell 结 合 得 非常 紧密 。 也 就 是 说 ， 你 可 以 直 
接 在 IPython 中 实现 标准 的 Windows 或 UNIX (Linux、OS X) 命令 行 活动 。 比 如 执行 shell 
命令 、 更 改 目 录 、 将 命令 的 执行 结果 保存 在 Python 对 象 (列表 或 字符 串 ) 中 等 。 此 外 ， 
它 还 提供 了 shell 命 令 别 名 以 及 目录 书签 等 功能 。 








表 3-3 总 结 了 用 于 调用 shell 命 令 的 魔术 命令 及 其 语法 。 我 将 在 后 面 几 节 中 简要 介绍 这 些 
功能 。 


表 3-3: 跟 系统 相关 的 IPython 魔 术 命令 


命令 说 明 

!cmd 在 系统 shell 中 执行 cmd 

output =!cmd args 执行 cmd， 并 将 stdout 存 放 在 output 中 
9%alias alias_name cmd 为 系统 shell 命 令 定 义 别名 
9%bookmark 使 用 IPython 的 目录 书签 系统 

9%cd directory 将 系统 工作 目录 更 改 为 directory 
%pwd 返回 系统 的 当前 工作 目录 

Wpushd directory 将 当前 目录 入 栈 ， 并 转向 目标 目录 
%popd 弹出 栈 顶 目录 ， 并 转向 该 目录 

Wdirs 返回 一 个 含有 当前 目录 栈 的 列表 
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表 3-3: 跟 系统 相关 的 IPython 魔 术 命令 ( 续 ) 





命令 说 明 

9%dhist 打印 目录 访问 历史 

Yenv 以 dict 形 式 返回 系统 环境 变量 
shell 命 令 和 别名 


在 IPython 中 ， 以 感叹 号 (!) 开头 的 命令 行 表示 其 后 的 所 有 内 容 需 要 在 系统 shell 中 执 
行 。 也 就 是 说 ， 你 可 以 删除 文件 (根据 OS 的 不 同 ， 使 用 rm 或 de1) 、 修 改 目录 或 执行 任 
意 其 他 处 理 过 程 。 其 至 还 可 以 启动 一 些 能 将 控制 权 从 IPython 手 中 夺 走 的 进程 (比如 另外 
再 启动 一 个 Python 解释 器 ) : 

In [2]: !python 

python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17:51) 

[GCC 4.1.2 20080704 (Red Hat 4.1.2-44)] on linux2 

Type "packages", "demo" or "enthought” for more information. 

>>> 
此 外 ， 还 可 以 将 shell 命 令 的 控制 台 输 出 存放 到 变量 中 ， 只 需 将 ! 开头 的 表达 式 赋 值 给 变 
量 即 可 。 例 如 ， 我 的 Linux 电 脑 通 过 以 太 网 连接 到 互联 网 ， 于 是 可 以 将 我 的 IP 地 址 存 到 一 
个 Python 变 量 中 去 :半生 


In [1]: ip_info = !ifconfig etho | grep "inet" 


In [2]: ip_info[o].strip() 
out[2]: “inet addr:192.168.1.137 Bcast:192.168.1.255 Mask:255.255.255.0" 


返回 的 Python 对 象 ip_info 实 际 上 是 一 个 含有 控制 台 输 出 结果 的 自 定义 列表 类 型 。 
在 使 用 ! 时 ，IPython 还 允许 使 用 当前 环境 中 定义 的 Python 值 。 只 需 在 变量 名 前 面 加 上 美 
元 符号 ($) 即 可 ， 主 尘 % 

In [3]: foo = ‘test*" 


In [4]: !1s $foo 
test4.py test.py test.xml 


魔术 命令 %alias 可 以 为 shell 命 令 自 定义 简称 。 例 如 : 


译注 13; 之 前 已 经 说 过 ， 作 者 用 的 不 是 Windows 抬 作 系统 ， 所 以 这 个 命令 自然 无 法 执行 。Windows 
上 可 以 用 ipconfig， 但 毕竟 不 是 一 样 东 西 ， 这 里 的 代码 自己 能 看 明白 即 可 。 


译注 14: 在 Windows 中 ， 将 ls 换 成 dir。 
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In [1]: %alias 11 1s -1 


In [2]: 11 /usr 

total 332 

drwxr-xI-x 2 root root 69632 2012-01-29 20:36 bin/ 
drwxr-xr-x 2 root root 4096 2010-08-23 12:05 games/ 
drwxr-xr-x 123 root root 20480 2011-12-26 18:08 include/ 
drwxr-xr-x 265 root root 126976 2012-01-29 20:36 lib/ 
drwxr-xr-x 44 root root 69632 2011-12-26 18:08 lib32/ 
]lrwxrwxrwx 1 root root 3 2010-08-23 16:02 lib64 -> lib/ 
drwxr-xr-x 15 root root 4096 2011-10-13 19:03 local/ 
drwxr-xr-x 2 root root 12288 2012-01-12 09:32 sbin/ 
drwxr-xr-x 387 Yoot root 12288 2011-11-04 22:53 share/ 
drwxrwsr-x 24 root src 4096 2011-07-17 18:38 src/ 


可 以 一 次 执行 多 条 命令 ， 只 需 将 它们 写 在 一 行 上 并 以 分 号 隔 开 即 可 : 
In [558]: %alias test alias (cd cho8; 1s; cd ..) 


In [559]: test alias 
macrodata.csv spx.csv tips.csv 


注意 ，IPython 会 在 会 话 结束 时 立即 “忘记 ”你 所 定义 的 一 切 别名 。 为 了 创建 永久 性 的 别 
名 ， 你 需要 使 用 配置 系统 。 本 章 稍 后 会 对 此 进行 介绍 。 


目录 书签 系统 
IPython 有 一 个 简单 的 目录 书签 系统 ， 它 使 你 能 保存 常用 目录 的 别名 以 便 实 现 快速 跳 转 。 
比如 说 ， 作 为 一 名 狂热 的 Dropbox 用 户 ， 为 了 能 够 快速 地 转 到 我 的 Dropbox 目 录 ， 我 可 以 
定义 一 个 书签 : 

In [6]: %bookmark db /home/wesm/Dropbox/ 
在 定义 好 书签 之 后 ， 就 可 以 在 执行 魔术 命令 %cd 时 使 用 这 些 书 签 了 : 

In [7]: cd db 


(bookmark:db) -> /home/wesm/Dropbox/ 
/home/wesm/Dropbox 


如 果 书 签名 与 当前 工作 目录 中 的 某 个 目录 名 冲突 ， 可 以 通过 -b 标 记 (其 作用 是 覆 写 ) 使 
用 书签 目录 。%bookmark 的 -1 选项 的 作用 是 列 出 所 有 书签 : 
In [8]: Xbookmark -1 


Current bookmarks: 
db -> /home/wesm/Dropbox/ 


书签 跟 别 名 的 区 别 在 于 ， 它 们 会 被 自动 持久 化 。 
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软件 开发 工具 


IPython 不 仅 是 一 种 舒适 的 交互 式 计算 和 数据 分 析 环 境 ， 同 时 也 非常 适合 成 为 一 种 软件 
开发 环境 。 在 数据 分 析 应 用 程序 中 ， 最 重要 的 事情 就 是 拥有 正确 的 代码 。 幸 运 的 是 ， 
IPython 紧 密集 成 并 加 强 了 Python 内 置 的 pdb 调试 器 。 此 外 ， 你 还 希望 代码 运行 能 足够 
快 。 为 此 ，IPython 提 供 了 一 些 简单 易 用 的 代码 运行 时 间 及 性 能 分 析 工 具 。 下 面 ， 我 将 对 
这 些 工具 做 一 个 详细 介绍 。 


交互 式 调试 器 
IPython 的 调试 器 增强 了 pdb， 如 Tab 键 自动 完成 、 语 法 高 亮 、 为 异常 跟踪 的 每 条 信息 添加 
上 下 文 参考 等 。 调 试 代码 的 最 佳 时 机 之 一 就 是 错误 刚刚 发 生 那 会 儿 。%debug 命 令 ( 在 发 
生 异 常 之 后 马上 输入 ) 将 会 调用 那个 “事后 ”调试 器 ， 并 直接 跳 转 到 引发 异常 的 那个 栈 
帧 (stack frame) : 


In [2]: run cho3/ipython_bug.py 


AssertionError Traceback (most recent call last) 
/home/wesm/book_scripts/cho3/ipython_bug.py in <moduley() 

13 throws_an_exception() 

14 


---，35 calling_things() 


/home/wesm/book_scripts/cho3/ipython_bug.py in calling_things() 
11 def calling_things(): 


12 works_fine() 
---》 13 throws_an_exception() 
14 


15 calling_things() 


/home/wesm/book_scripts/cho3/ipython_bug.py in throws_an_exception() 


7 a=5 
8 b=6 

---->9 assert(a + b == 10) 
10 


11 def calling_things(): 
AssertionError: 


In [3]: %debug 
> /home/wesm/book_scripts/cho3/ipython_bug.py(9)throws_an_exception() 


8 b=56 

---->9 assert(a + b == 10) 
10 

ipdb> 


在 这 个 调试 器 中 ， 你 可 以 执行 任意 Python 代码 并 查看 各 个 栈 帧 中 的 一 切 对 象 和 数据 (也 
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就 是 解释 器 还 “ 留 了 条 生路 ”的 那些 ) 。 默 认 是 从 最 低级 开始 的 〈 即 错误 发 生 的 地 
方 ) 。 输 入 u (或 up) 和 d (或 down) 即 可 在 栈 跟踪 的 各 级 别 之 间 切 换 : 


ipdb> u 
> /home/wesm/book_scripts/cho3/ipython_bug.py(13)calling_things() 
12 works_fine() 
---> 13 throws_an_exception() 
14 


执行 %pdb 命 令 可 以 让 IPython 在 出 现 异常 之 后 自动 调用 调试 器 。 很 多 人 都 认为 这 是 一 个 非 
常 实用 的 功能 。 


此 外 ， 调 试 器 还 可 以 为 代码 开发 工作 提供 帮助 ， 尤 其 是 当 你 想 要 设置 断 点 或 对 函数 /脚本 
进行 单 步调 试 以 查看 各 条 语句 的 执行 情况 时 。 实 现 这 个 目的 的 方式 有 儿 个 。 第 一 ， 使 用 
带 有 -d 选 项 的 %run 命 令 ， 这 将 会 在 执行 脚本 文件 中 的 代码 之 前 先 打开 调试 器 。 必 须 立即 
输入 s (或 step) 才能 进入 脚本 : 评注 15 

In [5]: run -d cho3/ipython_bug.py 

Breakpoint 1 at /home/wesm/book_scripts/cho3/ipython_bug.py:1 


NOTE: Enter 'c' at the ipdb> prompt to start your script. 
> <string> (1)<module>() 


ipdb> s 
> g:\ipython_bug.py(1)<module>() 
1---> 1 def works_fine(): 

2 a=5 

3 =6 


在 此 之 后 ， 该 文件 接 下 来 的 执行 方式 就 全 赁 你 一 句 话 了 。 比 如 说 ， 在 上 面 那 个 异常 中 ， 
我 们 可 以 在 调用 works_fine 方 法 的 地 方 设置 一 个 断 点 ， 然 后 输入 c (或 continue) 使 脚本 
- 直 运行 下 去 直到 该 断 点 时 为 止 : 
ipdb> b 12 
ipdb> < 
> /home/wesm/book_scripts/cho3/ipython_bug.py(12)calling_things() 
11 def calling_ things(): 


2--> 12 works_fine() 
13 throws_an exception() 


这 时 可 以 单 步 进入 works_fine() 或 执行 works_fine() (输入 n (或 next) 直接 执行 到 下 一 
行 译注 16 
行 ) : 


ipdby n 
> /home/wesm/book_scripts/cho3/ipython_bug.py(13)calling_things() 


译注 15: 第 一 ，s 不 一 定 行 ， 看 提示 ， 要 用 c; 第 二 ， 这 个 s 实 际 上 是 step into。 
译注 16: 也 就 是 step Over。 
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2 12 works fne() 
---》13 throws_an_exception() 
14 
然后 ， 我 们 单 步 进入 throws_an_exception 并 前 进 到 发 生 错误 的 那 一 行 ， 查 看 在 此 范围 内 
的 变量 。 注 意 ， 调 试 器 命令 的 优先 级 高 于 变量 名 。 这 时 在 变量 前 面 加 上 感叹 号 (! ) 即 
可 查看 其 内 容 。 


ipdb> s 

--Call-- 

> /home/wesm/book_scripts/cho3/ipython_bug.py(6)throws_an_exception() 
5 

----》6 def throws_an_exception(): 
~ a=5 

ipdb> n 


> /home/wesm/book_scripts/cho3/ipython_bug.py(7)throws_an_exception() 
6 def throws_an_exception(): 


---->7 a=5 
8 b=6 

ipdby n 

> /home/wesm/book_scripts/cho3/ipython_bug.py(8)throws_an_exception() 
7 a=5 

-8 b=56 
9 assert(a + b == 10) 

ipdb> n 

> /home/wesm/book_scripts/cho3/ipython_bug.py(9)throws_an_exception() 
8 b=6 

---- ”9 assert(a + b == 10) 
10 

ipdb> !a 

5 

ipdb> !b 


6 


要 想 精通 这 个 交互 式 调试 器 ， 必 须 经 过 大 量 的 实践 才 行 。 表 3-4 列 出 了 该 调试 器 的 全 部 
命令 。 如 果 你 习惯 了 使 用 某 款 IDE， 刚 开始 用 这 种 终端 型 调试 器 的 时 候 可 能 会 觉得 有 
点 麻烦 ， 但 慢 慢 就 会 习惯 了 。 虽 然 大 部 分 Python 1DE 都 拥有 优秀 的 GUI 调试 器 ， 但 是 在 
IPython 中 调试 程序 却 往往 会 带 来 更 高 的 生产 率 。 


表 3-4: (I)Python 调 试 器 命令 


命令 功能 

hlelp) 显示 命令 列表 
高 显示 command 的 文档 
clontinue) 恢复 程序 的 执行 
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表 3-4: (I)Python 调 试 器 命令 ( 续 ) 





命令 功能 

q(uit) 退出 调试 器 ， 不 再 执行 任何 代码 

b(reak) number 在 当前 文件 的 第 number 行 设置 一 个 断 点 

b path/to/file py:number 在 指定 文件 的 第 number 行 设置 一 个 断 点 

s(tep) 单 步 进入 函数 调用 

n(ext) 执行 当前 行 ， 并 前 进 到 当前 级 别 的 下 一 行 
u(p)/d(own) 在 函数 调用 栈 中 向 上 或 向 下 移动 

alrgs) 显示 当前 函数 的 参数 

debug statement 在 新 的 (递归 ) 调试 器 中 调用 语句 statement 

I(ist) statement 显示 当前 行 ， 以 及 当前 栈 级 别 上 的 上 下 文 参考 代码 
where) 四 ”打印 当前 位 置 的 完整 栈 跟踪 (包括 上 下 文 参考 代码 ) 
调试 器 的 其 他 使 用 场景 


除 上 面 提 到 的 之 外 ， 还 有 另外 几 种 调用 调试 器 的 手段 。 第 一 ， 使 用 set_trace 这 个 特别 
的 函数 (以 pdb.set_trace 命 名 ) ， 这 差不多 可 以 算 作 一 种 “穷人 的 断 点 评注 7?” 。 下 
面 这 两 个 方法 可 能 会 在 你 的 日 常 工作 中 派 上 用 场 (你 也 可 以 像 我 一 样 直接 将 其 添加 到 
IPython 配 置 中 ) : 


def set_trace(): 
from IPython.core.debugger inport pdb 
pdb(color_scheme="Linux').set_trace(sys._getframe().f_back) 


def debug(f, *args, **kwargs): 
from IPython.core.debugger inport Pdb 
pdb = pdb(color_scheme='Linux') 
return pdb.runcall(f, *args, **kwargs) 


第 一 个 函数 (set_trace) 非常 简单 。 你 可 以 将 其 放 在 代码 中 任何 希望 停 下 来 查看 一 番 
的 地 方 ( 比 如 发 生 异常 的 地 方 ) : 
In [7]: run cho3/ipython_bug.py 
> /home/wesm/book_scripts/cho3/ipython_bug.py(16)calling_things() 
15 set_trace() 


-~--> 16 throws_an_exception() 
17 


按 下 c (或 continue) 仍然 会 使 代码 恢复 执行 ， 不 受 任何 影响 。 


译注 17: 作者 在 这 里 的 意思 是 这 种 断 点 比较 随便 ， 是 硬 编码 的 。 
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另外 那个 debug 函 数 使 你 能 够 直接 在 任意 函数 上 使 用 调试 器 。 假 设 我 们 写 了 如 下 函数 : 


def F(x, y, 2=1): 
tmp=x+y 
return tmp / z 
现在 想 对 其 进行 单 步调 试 。f 的 正常 使 用 方式 应 该 类 似 于 f(1，2，z=3) 这 个 样子 。 为 了 能 
够 单 步 进入 f， 将 f 作 为 第 一 个 参数 传 给 debug， 后 面 按 顺 序 再 跟 上 各 个 需要 传 给 {的 关键 
字 参 数 ， 
In [6]: debug(f, 1, 2, 2=3) 
> <ipython-input>(2)f() 
1 def f(x, y, 2): 


---->?2 tmp=x+y 
3 return tmp / z 


ipdb> 
我 发 现 这 两 个 函数 虽然 简单 ， 但 是 在 日 常 工作 当中 却 节省 了 我 不 少 的 时 间 。 


此 外 ， 这 个 调试 器 还 可 以 结合 %rYun 使 用 。 通 过 %run -d 执 行 脚本 ， 你 将 会 直接 进入 调试 
器 ， 然 后 可 以 设置 一 些 断 点 并 启动 脚本 : 

In [1]: %run -d cho3/ipython_bug.py 

Breakpoint 1 at /home/wesm/book_scripts/cho3/ipython_bug.py:1 


NOTE: Enter 'c' at the ipdb> prompt to start your script. 
> <string>(1)<¢module>() 


ipdb> 
如 果 再 加 上 -b 和 一 个 行 号 ， 则 调试 器 在 启动 时 就 会 自动 设置 一 个 断 点 : 


In [2]: %run -d -bz cho3/ipython_bug.py 

Breakpoint 1 at /home/wesm/book_scripts/cho3/ipython_bug.py:2 
NOTE: Enter 'c' at the ipdb> prompt to start your script. 

> <string>(1)<module>() 


ipdb> c 

> /home/wesm/book_scripts/cho3/ipython_bug.py(2)works_fine() 
1 def works_fine(): 

1---> 2 a=5 
3 b=6 


ipdb> 


测试 代码 的 执行 时 间 : %time 和 %timeit 
对 于 规模 更 大 、 运 行 时 间 更 长 的 数据 分 析 应 用 程序 ， 你 可 能 会 希望 测试 一 下 各 个 部 分 或 
函数 调用 或 语句 的 执行 时 间 。 你 可 能 会 希望 了 解 某 个 复杂 计算 过 程 中 到 底 是 哪些 函数 占 
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用 的 时 间 最 多 。 幸 运 的 是 ， 在 开发 和 测试 代码 的 过 程 中 ，IPython 能 够 让 你 轻松 得 到 这 些 
信息 。 使 用 内 置 的 time 模 块 及 其 time.clock 和 time.time 函 数 手工 测试 代码 执行 时 间 是 一 
件 令 人 烦 问 的 事情 ， 因 为 你 必须 编写 许多 一 模 一 样 的 了 无 生 趣 的 公式 化 代码 : 
import time 
start = time.time() 
for i in range(iterations): 
# 这 里 放 一 些 待 执 行 的 代码 
elapsed per = (time.time() - start) / iterations 
由 于 这 是 一 个 非常 常用 的 功能 ， 所 以 IPython 专 门 提供 了 两 个 魔术 函数 (%time 和 
%timeit) 以 便 自 动 完成 该 过 程 。%t ime 一 次 执行 一 条 语句 ， 然 后 报告 总 体 执行 时 间 。 假 
设 我 们 有 一 大 堆 字符 串 ， 和 希望 对 几 个 “能 够 选 出 具有 特殊 前 绥 的 字符 串 ” 的 函数 进行 比 
较 。 下 面 是 一 个 拥有 60 万 字符 串 的 数组 ， 以 及 两 个 不 同 的 “能 够 选 出 其 中 以 foo 开 头 的 
字符 串 ” 的 方法 ， 


# 一 个 非常 大 的 字符 串 数组 
strings = ["foo'，"foobar'， 'baz', 'qux', 'python', "Guido Van Rossum'] * 100000 


method1 = [x for x in strings if x.startswith('foo')] 


method2 = [x for x in strings if x[:3] == "foo'] 
看 上 去 它们 的 性 能 表现 应 该 差不多 ， 对 吧 ? 我 们 通过 %time 来 确认 一 下 : 


In [561]: %time method1 = [x for x in strings if x.startswith('foo')] 
CPU times: user 0.19 s, Sys: 0.00 s, total: 0.19s 
Wall time: 0.19 5 


In [562]: %time method2 = [x for x in strings if x[:3] == "foo'] 

CPU times: user 0.09 s, sys: 0.00 s, total: 0.09 s 

Wall time: 0.09 s 
墙 上 时 间 (Wall time) 是 我 们 最 感 兴趣 的 数字 。 所 以 ， 看 上 去 第 一 个 方法 耗费 了 两 倍 以 
上 的 时 间 ， 但 这 并 不 是 一 个 非常 精确 的 结果 。 如 果 你 对 相同 语句 多 次 执行 %time 的 话 ， 就 
会 发 现 其 结果 是 会 变 的 。 为 了 得 到 更 为 精确 的 结果 ， 需 要 使 用 魔术 函数 %timeit。 对 于 任 
意 语 句 ， 它 会 自动 多 次 执行 以 产生 一 个 非常 精确 的 平均 执行 时 间 。 


In [563]: %timeit [x for x in strings if x.startswith('foo')] 
10 loops, best of 3: 159 ms per loop 


In [564]: Xtimeit [x for x in strings if x[:3] == 'foo'] 

10 loops, best of 3: 59.3 ms per loop 
这 个 貌似 平淡 无 奇 的 例子 正好 说 明了 一 个 事实 : 我 们 非常 有 必要 了 解 Python 标准 库 、 
NumPy、pandas 以 及 本 书 中 所 用 到 的 其 他 库 的 性 能 特点 。 在 大 型 数据 分 析 应 用 程序 中 ， 
这 些 不 起 眼 的 毫秒 数 是 会 不 断 累积 的 ! 
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对 于 那些 执行 时 间 非 常 短 (其 至 是 那些 微 秒 (1e-6 秒 ) 或 纳 秒 (1e-9 秒 ) 级 的 ) 的 分 析 
语句 和 函数 而 言 ，%t imeit 是 非常 有 用 的 。 虽 然 这 些 时间 值 小 到 几乎 可 以 忽略 不 计 ， 但 
同样 执行 100 万 次 一 个 20 微 秒 的 函数 ， 所 用 的 时 间 要 比 一 个 5 微 秒 的 多 15 秒 。 在 上 面 那个 
例子 中 ， 我 们 可 以 直接 对 那 两 个 字符 串 运算 进行 比较 以 了 解 其 性 能 特点 ， 


In [565]: x = "foobar' 
In [566]: y = 'foo' 


In [567]: %timeit x.startswith(y) 
1000000 loops, best of 3: 267 ns per loop 


In [568]: Xtimeit x[:3] == y 
10000000 loops, best of 3: 147 ns per loop 


基本 性 能 分 析 : %prun 和 %run -p 

代码 的 性 能 分 析 跟 代码 执行 时 间 密 切 相关 ， 只 不 过 它 关 注 的 是 耗费 时 间 的 位 置 。 主 要 的 
Python 性 能 分 析 工 具 是 cprofile 模 块 ， 它 不 是 专 为 ITPython 设 计 的 。cProfile 在 执行 一 个 程 
序 或 代码 块 时 ， 会 记录 各 函数 所 耗费 的 时 间 。 


cProfile 一 般 是 在 命令 行 上 使 用 的 ， 它 将 执行 整个 程序 然后 输出 各 函数 的 执行 时 间 。 假 
设 我 们 有 一 个 简单 的 脚本 : 在 一 个 循环 中 执行 一 些 线性 代数 计算 (计算 一 个 100 x 100 的 
矩阵 的 最 大 本 征 值 绝 对 值 ) 。 


import numpy as np 
from numpy.linalg import eigvals 


def run_experiment(niter=100): 
= 100 
results = [] 
for _ in xrange(niter): 
mat = np.random.randn(K, K) 
max_eigenvalue = np.abs(eigvals(mat)).nax() 
results.append(max_eigenvalue) 
return results 
some_results = run_experiment() 
print "Largest one we saw: %s" % np.max(some_results) 


如 果 你 还 不 懂 NumPy， 暂 时 先 别 管 ， 后 面 会 讲 的 。 在 命令 行 中 输入 下 列 命 令 即 可 通过 
cprofile 启 动 该 脚本 : 


python -m cprofile cprof_example.py 


执行 之 后 ， 你 会 发 现 输出 结果 是 按 函数 名 排序 的 。 这 让 我 们 很 难 发 现 哪 里 才 是 最 花 时 间 
的 地 方 ， 因 此 通常 都 会 再 用 -s 标 记 指定 一 个 排序 规则 : 
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$ python -m cprofile -s cumulative cprof_example.py 
Largest one we saw: 11.923204422 
15116 function calls (14927 primitive calls) in 0.720 seconds 


Ordered by: cumulative time 


ncalls tottime percall cumtime percall filename:lineno(function) 
1 0.001 0.001 0.721 0.721 cprof example.py:1(<module>) 

100 0.003 0.000 0.586 0.006 linalg.py:702(eigvals) 

200 0.572 0.003 0.572 0.003 {numpy.linalg.lapack_lite.dgeev} 

1 0.002 0.002 0.075 0.075 _init_ .py:106(<module>) 

100 0.059 0.001 0.059 0.001 {method ‘randn') 

0.000 0.000 0.044 0.044 add_newdocs.py:9(<module>) 

2 0.001 0.001 0.037 0.019 _init_.py:1(<module>) 

2 0.003 0.002 0.030 0.015 _init_ (<module>) 

1 0.000 0.000 0.030 0.030 type_check.py:3(<module>) 

1 0.001 0.001 0.021 0.021 _init_ 5(cmodule>) 
1 
1 









0.013 0.013 0.013 0.013 numeric.py:1(<module>) 

0.000 0.000 0.009 0.009 _init_ (cmodule>) 

0.001 0.001 0.008 0.008 _init .py:45(<module>) 

262 0.005 0.000 0.007 0.000 function base.py:3178(add_newdoc) 
100 0.003 0.000 0.005 0.000 linalg.py:162(_assertFinite) 





这 里 只 给 出 了 输出 结果 中 的 前 15 行 。 只 需 查看 cumtime 列 即 可 发 现 各 函数 所 耗费 的 总 时 
间 。 注 意 ， 如 果 一 个 函数 调用 了 别 的 函数 ， 计 时 器 是 不 会 停 下 来 重新 计时 的 。cpProfile 
记录 的 是 各 函数 调用 的 起 始 和 结束 时 间 ， 并 依 此 计算 总 时 间 。 


除 命令 行 用 法 之 外 ，cpProfile 还 可 以 编程 的 方式 分 析 任意 代码 块 的 性 能 。IPython 为 此 提 
供 了 一 个 方便 的 接口 ， 即 %prun 命 令 和 带 -p 选 项 的 %run。%prun 的 格式 跟 cpProfile 差 不 多 ， 
但 它 分 析 的 是 Python 语句 而 不 是 整个 .py 文件 : 


In [4]: %prun -1 7 -s cumulative run_experiment() 
4203 function calls in 0.643 seconds 


Ordered by: cumulative time 
List reduced from 32 to 7 due to restriction <7> 


ncalls tottime percall cumtime percall filename:lineno(function) 
1 0.000 0.000 0.643 0.643 “string>:1(<module>) 
1 0.001 0.001 0.643 0.643 cprof example.py:4(run_experiment) 
100 0.003 0.000 0.583 0.006 linalg.py:702(eigvals) 
200 0.569 0.003 0.569 0.003 {numpy.linalg.lapack_lite.dgeev} 
100 0.058 0.001 0.058 0.001 {method ‘randn'} 
100 0.003 0.000 0.005 0.000 linalg.py:162(_assertFinite) 
200 0.002 0.000 0.002 0.000 {method 'al1' of ‘numpy.ndarray' objects} 


执行 %run -p -s cumulative cprof_example.py 也 能 达到 上 面 那 条 系统 命令 行 命令 一 样 
的 效果 ,但 是 却 无 需 退 出 IPython。 
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逐 行 分 析 函 数 性 能 

有 些 时 候 ， 从 %prun (或 其 他 基于 cProfile 的 性 能 分 析 手 段 ) 得 到 的 信息 要 么 不 足以 说 明 
函数 的 执行 时 间 ， 要 么 就 复杂 到 难以 理解 ( 按 函 数 名 聚合 ) 。 对 于 这 种 情况 ， 我 们 可 以 
使 用 一 个 叫做 line_profiler 的 小 型 库 (可 以 通过 PyPI 或 随便 一 种 包 管理 工具 获取 ) 。 其 
中 有 一 个 新 的 魔术 函数 灿 prun， 它 可 以 对 一 个 或 多 个 函数 进行 逐 行 性 能 分 析 。 你 可 以 修 
改 IPython 配 置 (参考 IPython 文 件 或 本 章 稍 后 关于 配置 的 内 容 ) 以 启用 这 个 扩展 ， 代 码 
如 下 所 示 : 


# A list of dotted module names of IPython extensions to l0ad. 
c.TerminalIPythonApp.extensions = ['line_profiler'] 


line_profiler 可 以 通过 编程 的 方式 使 用 (请 参阅 完整 文档 ) ,但 其 最 强大 的 一 面 却 是 在 
IPython 中 的 交互 式 使 用 。 假 设 你 有 一 个 prof_mod 模 块 ， 其 中 有 一 些 用 于 NumPy 数 组 计算 
的 代码 ， 如 下 所 示 : 


from numpy.random import randn 


def add_and_sum(x，y): 
added = x + y 
sunmed = added.sum(axis=1) 
return summed 


def call_function(): 
x = randn(1000, 1000) 
y = randn(1000, 1000) 
return add_and_sum(x, y) 


如 果 我 们 想 了 解 add_and_sum 函 数 的 性 能 ，%prun 会 给 出 如 下 所 示 的 结果 : 
In [569]: %run prof_mod 


In [570]: x = randn(3000, 3000) 
In [571]: y = randn(3000, 3000) 


In [572]: %prun add_and_sum(x, y) 
4 function calls in 0.049 seconds 
Ordered by: internal time 
ncalls tottime percall cumtime percall filename:lineno(function) 
1 0.036 0.036 0.046 0.046 prof mod.py:3(add_and_sum) 
1 0.009 0.009 0.009 0.009 {method “sum” of ‘numpy.ndarray' objects} 
1 0.003 0.003 0.049 0.049 <string>:1(<module>) 
1 0.000 0.000 0.000 0.000 {method ‘disable’ of '_lsprof.Profiler' objects} 


这 个 结果 并 不 能 说 明 什么 问题 。 启 用 1ine_profiler 这 个 IPython 扩 展 之 后 ， 就 会 出 现 一 个 
新 的 魔术 命令 氏 prun。 用 法 上 唯一 的 区 别 就 是 ， 必须 为 ‰Lprun 指 明 想 要 测试 哪个 或 哪些 
函数 。‰prun 的 通用 语法 为 : 


%lprun -f funcl -f func2 statement_to_profile 
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在 本 例 中 ， 我 们 想 要 测试 的 是 add_and_sum， 于 是 执行 : 


In [573]: %lprun -f add and sum add and_ sum(x，y) 

Timer unit: le-06 s 

File: book_scripts/prof_mod.py 

Function: add_and_sum at line 3 

Total time: 0.045936 s 

Line # Hits Time Per Hit % Time Line Contents 





3 def add_and_sum(x, y): 

4 1 36510 36510.0 79.5 added = x + 》 

条 9425 9425.0 20.5 summed = added.sum(axis=1) 
6 1 1.0 0.0 return summed 


这 个 结果 就 容易 理解 多 了 。 这 里 我 们 测试 的 只 是 add_and_sum 这 一 个 函数 。 上 面 那个 模块 
中 还 有 一 个 call_function 函 数 ， 我 们 可 以 结合 add_and_sum 一 起 测试 ， 于 是 最 终 的 测试 
命令 就 成 了 下 面 这 个 样子 : 


In [574]: %lprun -f add_and_sum -f call_function call_function() 
Timer unit: 1e-06 s 

File: book_scripts/prof_mod.py 

Function: add_and_sum at line 3 

Total time: 0.005526 s 

Line # Hits Time Per Hit  %Time Line Contents 








3 def add_and_sunm(x, 
4 1 4375 4375.0 79.2 added = x +y 
5 1 1149 1149.0 20.8 summed = added.sum(axis=1) 
6 1 入 2.0 0.0 return summed 


File: book_scripts/prof_mod.py 

Function: call_function at line 8 

Total time: 0.121016 s 

Line # Hits Time Per Hit % Time Line Contents 


8 def call_function(): 

9 1 57169 57169.0 47.2 x = randn(1000, 1000) 
10 1 58304 58304.0 48.2 y = randn(1000, 1000) 
11 LL 5543 5543.0 4.6 Teturn add_and_sum(x, y) 


通常 ， 我 会 用 %prun (cProfile) 做 “宏观 的 ”性 能 分 析 ， 而 用 乱 prun (line_profiler) 
做 “微观 的 ” 性 能 分 析 。 这 两 个 工具 都 很 有 必要 了 解 一 下 。 





注意 ， 在 使 用 和 prun 时 ， 之 所 以 必须 显 式 指明 待 测试 的 函数 名 ， 是 因为 “跟踪 ”每 一 行 代码 的 执行 
时 间 所 需 的 开销 很 大 。 对 不 感 兴趣 的 函数 进行 跟踪 将 会 对 性 能 分 析 结果 造成 显著 的 影响 。 





IPython HTML Notebook 
2011 年 ， 由 Brian Granger 领 导 的 IPython 团 队 开始 开发 一 种 基于 Web 技 术 的 交互 式 计算 文 
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档 格式 ， 即 IPython Notebook ( 见 图 3-4) 。 目 前 ， 它 已 经 成 为 一 种 非常 棒 的 交互 式 计算 
工具 ， 同 时 还 是 科研 和 教学 的 一 种 理想 媒介 。 本 书 中 大 部 分 示例 都 是 用 它 编写 的 .我 强烈 
建议 你 也 试 试 。 


0 ow 3 HE 

IP[y: Notebook NotebookEx 。 Lastsaved ju26 106PM 

RL 
Ee Ce 
ny 


inport pandas 
print ‘Hello 


sd 





Helle worldl 


tips = pd. read_csv( ‘book_scripts/choa/tips.c 
tips.head() 





total billltip [sex [smoker[day|time 

1699 |101|Fomae Dnner 
1034 |166|wae Drnner 
2101 [350[Mmae Sun| Dinner 
2368 |331|Mae Sun [Onner 
2459 361|Femae Sun [Dnner 















































In (4]: img = plt. imread('book_ scripts/choa/stinkbug pn 
tigure(figsize=(4, 4))| 
plt. imshow( ing) 


Out[4]: cnatplotlib. image AxesImage at 0x7f465d34a510> 

















图 3-4: IPython Notebook 


它 有 一 种 基于 JSON 的 文档 格式 .ipynb， 使 你 可 以 轻松 分 享 代 码 、 输 出 结果 以 及 图 片 等 内 
容 。 目 前 在 各 种 Python 研讨 会 上 ， 一 种 流行 的 演示 手段 就 是 使 用 IPython Notebook ， 然 后 
再 将 .ipynb 文 件 发 布 到 网 上 以 供 所 有 人 查阅 。 


IPython Notebook 应 用 程序 是 一 个 运行 于 命令 行 上 的 轻 量 级 服务 器 进程 。 执 行 下 面 这 条 
命令 即 可 启动 : 
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$ ipython notebook --pylab=inline 

[NotebookApp] Using existing profile dir: u'/home/wesm/.config/ipython/profile_default’ 
[NotebookApp] Serving notebooks from /home/wesm/book_scripts 

[NotebookApp] The IPython Notebook is running at: http://127.0.0.1:8888/ 
[NotebookApp] Use Control-C to stop this server and shut down all kernels. 


在 大 多 数 平台 上 ， 你 的 首选 Web 浏 览 器 会 自动 打开 Notebook 的 仪表 板 (dashboard) 。 有 
时 你 可 能 需要 手工 打开 上 面 列 出 的 那个 URL。 你 可 以 在 这 里 创建 一 个 新 的 记事 本 并 开始 
研究 工作 。 





由 于 我 们 是 在 一 个 Web 浏 览 器 中 使 用 Notebook 的 ， 因 此 该 服务 器 进程 可 以 运行 于 任何 地 
方 。 你 甚至 可 以 连接 到 那些 运行 在 云 服务 (如 Amazon EC2) 上 的 Notebook。 直 到 写作 
本 书 时 为 止 ， 一 个 新 的 名 为 NotebookCloud (http://norebookcloud.appspot.com) 的 项 目 
已 经 诞生 了 ， 它 可 以 轻松 地 在 Amazon EC2 上 启动 记事 本 。 


利用 IPython 提 高 代码 开发 效率 的 几 点 提示 


为 了 在 IPython 中 开发 、 调 试 代码 ， 并 充分 发 挥 其 交互 优势 ， 许 多 用 户 都 需要 转换 一 下 工 
作 模 式 。 像 编码 风格 以 及 一 些 操作 细节 可 能 需要 做 一 些 调整 。 


就 这 点 来 说 ， 本 节 的 内 容 更 像 是 艺术 而 非 科 学 ， 你 需要 有 一 些 编程 经 验 才 好 判断 其 能 否 
提高 你 的 工作 效率 。 总 之 ， 你 得 让 你 的 代码 结构 更 易于 交互 且 结果 更 易于 查看 。 我 发 现 
通过 IPython 设 计 的 软件 要 比 独 立 的 命令 行 应 用 程序 好 用 。 当 你 执行 自己 或 别人 在 几 个 月 
甚至 几 年 前 编写 的 代码 时 出 现 了 错误 ， 想 找 出 问题 所 在 时 ，IPython 的 交互 性 就 会 变 得 非 
常 重要 。 


重新 加 载 模块 依赖 项 

在 Python 中 ， 当 你 输入 import some_lib 时 ，some_lib 中 的 代码 就 会 被 执行 ， 且 其 中 所 有 
的 变量 、 函 数 和 引入 项 都 会 被 保存 在 一 个 新 建 的 some_1ib 模 块 命名 空间 中 。 下 次 你 再 输 
人 import some_1ib 时 ， 就 会 得 到 这 个 模块 命名 空间 的 一 个 引用 。 而 这 对 于 IPython 的 交 
互 式 代码 开发 模式 就 会 有 一 个 问题 ， 比 如 说 ， 用 %run 执 行 的 某 段 脚本 中 牵扯 到 了 某 个 刚 
刚 做 了 修改 的 模块 。 假 设 我 们 有 一 个 test_script.py 文 件 ， 其 中 有 下 列 代码 ; 





import some_lib 
和 


y = [1, 2, 3, 4] 
result = sone lib.get_answer(x, y) 


如 果 在 执行 了 %run test_script.py 之 后 又 对 some_1ib.py 进 行 了 修改 ， 下 次 再 执行 %run 





IPython: 一 种 交互 式 计算 和 开发 环境 | 77 


test_script.py 时 将 仍然 会 使 用 老 版 的 some_lib。 其 原因 就 是 Python 的 “一 次 加 载 ” 模 
块 系统 。 这 个 行为 不 同 于 其 他 一 些 数据 分 析 环 境 (如 MATLAB ， 它 会 自动 应 用 代码 修改 
于) 。 为 了 解决 这 个 问题 ， 你 有 两 个 办 法 可 用 。 第 一 个 办 法 是 使 用 Python 内 置 的 reload 
函数 。 将 test_script.py 修 改 成 下 面 这 个 样子 : 


import some_lib 
reload(some_ lib) 


y 9 汪 2, 3, 4] 

result = some_ lib.get_answer(x, y) 
这 样 就 保证 每 次 执行 test_script.py 时 都 能 用 上 最 新 版 的 some_1ib 了 。 显 然 ， 当 依赖 变 
得 更 强 时 ， 就 需要 在 很 多 地 方 插入 很 多 的 reload。 对 于 这 个 问题 ，IPython 提 供 了 一 个 
特殊 的 dreload 函 数 ( 非 魔术 函数 ) 来 解决 模块 的 “深度 ” (递归 ) 重 加 载 。 如 果 执 行 
import some_lib 之 后 再 输入 dreload(some_lib)， 则 它 会 尝试 重新 加 载 some_lib 及 其 所 
有 的 依赖 项 。 遗 憾 的 是 ， 这 个 办 法 也 不 是 万 灵 丹 ， 但 是 如 果真 的 不 行 了 ， 重 启 IPython 就 
行 了 。 


代码 设计 提示 
这 个 问题 不 太 好 讲 ， 但 我 在 日 常 工作 中 确实 发 现 了 一 些 高 层次 的 原则 。 


保留 有 意义 的 对 象 和 数据 
人 们 一 般 不 会 在 命令 行 上 编写 下 面 这 样 的 程序 ， 
from my_functions import 8 


def f(x, y): 
return g(x + y) 


def main(): 
x=6 
y = 7.5 
result = x + y 
if _name -=- '_nain_': 
main() 


如 果 我 们 在 IPython 中 执行 这 段 代码 的 话 会 出 现 什么 问题 ?我 们 在 IPython shell 中 将 访 
问 不 到 任何 结果 以 及 main 函 数 中 定义 的 对 象 。 好 点 的 办 法 是 直接 在 该 模块 的 全 局 命名 空 


注 1: ”由 于 一 个 模块 或 包 可 能 会 在 一 个 程序 中 的 不 同位 置 多 次 引入 ， 所 以 Python 会 在 第 一 次 引入 
这 些 模块 时 对 其 进行 缓存 ， 而 不 是 每 次 都 执行 模块 中 的 代码 。 否 则 ， 应 用 程序 的 模块 化 和 
良好 的 代码 组 织 等 手段 就 达 不 到 高 效 的 目的 了 。 





间 中 执行 main 中 的 代码 (如 果 你 希望 该 模块 是 可 引入 的 ， 也 可 以 将 这 些 代码 放 在 if __ 
name ”== '_main_ “': 块 中 ) 。 这 样 ， 当 你 %run 这 段 代码 时 ， 就 能 看 到 main 中 定义 的 所 
有 变量 了 。 对 这 个 简单 的 例子 而 言 ， 这 个 原则 意义 不 大 ， 但 对 本 书后 面 将 要 介绍 的 那些 
针对 大 数据 集 的 复杂 数据 分 析 问 题 而 言 就 很 重要 了 。 


扁平 结构 要 比 典 套 结构 好 

深度 侈 套 的 代码 让 我 想到 了 洋葱 。 在 测试 或 调试 函数 时 ， 你 要 把 这 个 洋葱 剥 多 少 层 才能 
找到 感 兴趣 的 代码 ? “扁平 结构 要 比 嵌 套 结构 好 ”的 思想 来 自 “Zen of Python” 8， 
它 对 交互 式 的 代码 开发 模式 同样 有 效 。 编 写 函 数 和 类 时 应 尽量 注意 低 而 合 和 模块 化 ， 这 
样 可 以 使 它们 更 易于 测试 如 果 你 编写 单元 测试 的 话 ) 、 调 试 和 交互 式 使 用 。 


无 惧 大 文件 

如 果 曾 经 学 过 Java (或 其 他 类 似 的 语言 ) ， 可 能 会 有 人 告诉 你 要 “尽量 保持 文件 的 小 
型 化 ”。 在 许多 语言 中 ， 这 都 是 一 个 不 错 的 建议 。 长 度 太 长 通常 是 一 种 不 好 的 “ 臭 代 
码 ”， 意味 着 需要 重 构 或 重组 。 然 而 在 IPython 中 开发 代码 时 ， 处 理 10 个 小 的 (但 互相 关 
联 的 ) 文件 (比如 都 低 于 100 行 ) 可 能 会 让 你 更 为 头疼 ， 还 不 如 直接 一 个 大 文件 或 两 三 
个 大 点 的 文件 来 得 痛快 。 更 少 的 文件 意味 着 需要 重新 加 载 的 模块 更 少 ， 编 辑 时 需要 在 各 
个 文件 之 间 的 跳 转 次 数 也 更 少 。 我 发 现 维护 更 大 的 (具有 高 内 聚 度 的 ) 模块 会 更 实用 也 
更 具有 Python 特点 。 在 解决 完 问题 之 后 ， 有 时 将 大 文件 拆 分 成 小 文件 会 更 好 。 

显然 ， 我 并 不 建议 将 此 原则 极端 化 ， 那 可 能 会 让 你 将 所 有 代码 都 放 到 一 个 巨大 的 文件 里 
面 。 对 一 个 大 型 代码 库 而 言 ， 要 找到 一 种 合乎 逻辑 的 模块 / 包 架 构 需要 花 点 工夫 ， 但 这 对 
团队 工作 非常 重要 。 每 个 模块 都 应 该 具有 足够 高 的 内 聚 度 ， 而 且 要 能 足够 直观 地 找到 对 
应 各 种 功能 的 函数 和 类 。 


高 级 IPython 功 能 


让 你 的 类 对 IPython 更 加 友好 

TPython 力 求 为 各 种 对 象 呈现 一 个 友好 的 字符 串 表示 。 对 于 许多 对 象 如 字典 、 列 表 和 元 
组 等 ) ， 内 置 的 pprint 模 块 就 能 给 出 漂亮 的 格式 。 但 是 对 于 你 自己 定义 的 那些 类 ， 就 必 
须 自己 生成 所 需 的 字符 串 输 出 。 假 设 我 们 有 下 面 这 个 简单 的 类 ， 








class Message: 
def _ init_ (self, msg): 
Self.msg = msg 


译注 18: 这 是 Tim Peters 2004 年 写 的 一 首 “ 诗 ”， 执行“import this” 就 能 看 到 。 有 网 民 将 其 翻译 
成 三 字 经 的 形式 (又 名 “ 蛇 宗 三 字 经 ”) 。 另 外， 有 兴趣 的 话 ， 可 以 看 看 this 的 源 代码 。 








IPython: 一 种 交互 式 计算 和 开发 环境 | 79 


如 果 像 下 面 这 样 写 ， 你 就 会 失望 地 发 现 这 个 类 的 默认 输出 形式 非常 不 好 看 : 
In [576]: x = Message('I have a secret') 


In [577]: x 
Out[577]: <_main .Message instance at Ox60ebbd8> 


由 于 IPython 会 获取 _repr_ 方 法 返回 的 字符 串 (具体 办 法 是 output = repr(obj)) ,并 
将 其 显示 到 控制 台 上 。 因 此 ， 我 们 可 以 为 上 面 那个 类 添加 一 个 简单 的 _repr_ 方法 以 得 到 
一 个 更 有 意义 的 输出 形式 : 
class Message: 
def _ init (self, msg): 
Self.msg = nsg 


def _repr_ (self): 
return ‘Message: %s' % self.msg 


In [579]: x = Message('I have a secret') 


In [580]: x 
Out[580]: Message: I have a secret 


个 性 化 和 配置 

IPython shell 在 外 观 (如 颜色 、 提 示 符 、 行 间距 等 ) 和 行为 方面 的 大 部 分 内 容 都 是 可 以 进 

行 配置 的 。 下 面 是 能 够 通过 配置 做 的 部 分 事情 : 

。 修改 颜色 方案 。 

。 ”修改 输入 输出 提示 符 。 

。 去掉 Out 提示 符 跟 下 一 个 In 提示 符 之 间 的 空 行 。 

。 ”执行 任意 Python 语句 。 这 些 语 句 可 以 用 于 引入 所 有 常用 的 东西 ， 还 可 以 做 一 些 你 希 
望 每 次 启动 IPython 都 发 生 的 事情 。 

。 ”启用 IPython 扩 展 ， 如 line_profiler 中 的 魔术 命令 %Lprun。 

。 ”定义 你 自己 的 魔术 命令 或 系统 别名 。 

所 有 这 些 配 置 选 项 都 定义 在 一 个 叫做 ipython_config.py 的 文件 中 ， 可 以 在 ~/.config/ 

ipython/ 目 录 (UNIX) 和 %HOME%/.ipython/ 目录 (Windows) 中 找到 。 有 具体 的 主 目录 

取决 于 你 的 系统 。 配 置信 息 是 基于 特定 个 性 化 设置 的 。 一 般 来 说 ， 正 常 启动 TPython 将 会 

加 载 默认 的 个 性 化 设置 (位 于 profile_default 目 录 中 ) 。 因 此 ， 在 我 的 Linux 系 统 中 ， 默 

认 IPython 配 置 文件 的 完整 路 径 是 : 


/home/wesm/ .config/ipython/profile_default/ipython_confg.py 
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这 里 我 就 不 对 该 文件 的 内 容 作 详细 介绍 了 。 因 为 其 注释 已 经 说 明了 各 个 配置 项 的 功能 ， 
各 位 读者 完全 可 以 自己 照 着 做 。 还 有 一 个 很 实用 的 功能 是 拥有 多 个 个 性 化 设置 。 假 设 你 
想 要 专门 为 某 个 应 用 程序 或 项 目 量 身 定做 一 套 IPython 配 置 。 输 入 下 面 这 样 的 命令 即 可 新 
建 一 个 个 性 化 设置 : 


ipython profile create secret_project 


然后 编辑 新 建 的 这 个 profile_secret_project 目 录 中 的 配置 文件 ， 再 用 下 面 这 种 方式 启动 
IPython 


$ ipython --profile=secret_project 
Python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17:51) 
Type "copyright", "credits” or "license" for more information. 


IPython 0.13 -- An enhanced Interactive Python。 

? -> Introduction and overview of IPython's features. 

%quickref -> Quick reference. 

help-> Python's own help system. 

object? -> Details about "object', use ‘object??' for extra details， 
Ipython profile: secret_project 


In [1]: 


同样 ， 有 关 个 性 化 和 配置 方面 的 详细 信息 ， 请 参考 ITPython 的 在 线 文档 。 


本 章 的 部 分 内 容 由 IPython Development Team 整 理 。 我 对 他 们 创建 了 如 此 神奇 的 工具 而 
感激 涕 零 。 
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第 4 章 


NumPy 基 础 : 数组 和 矢量 计算 





NumPy (Numerical Python 的 简称 ) 是 高 性 能 科学 计算 和 数据 分 析 的 基础 包 。 它 是 本 书 
所 介绍 的 几乎 所 有 高 级 工具 的 构建 基础 。 其 部 分 功能 如 下 : 

。 “ndarray， 一 个 具有 矢量 算术 运算 和 复杂 广播 能 力 的 快速 且 节 省 空间 的 多 维 数组 。 
。 ”用 于 对 整 组 数据 进行 快速 运算 的 标准 数学 函数 无需 编写 循环 ) 。 

。 ”用 于 读 写 磁盘 数据 的 工具 以 及 用 于 操作 内 存 映射 文件 的 工具 。 

。 ”线性 代数 、 随 机 数 生成 以 及 传 里 叶 变 换 功 能 。 

。 ”用 于 集成 由 C、C++、Fortran 等 语言 编写 的 代码 的 工具 。 

最 后 一 点 也 是 从 生态 系统 角度 来 看 最 重要 的 一 点 。 由 于 NumPy 提 供 了 一 个 简单 易 用 的 C 
API， 因 此 很 容易 将 数据 传递 给 由 低级 语言 编写 的 外 部 库 ， 外 部 库 也 能 以 NumPy 数 组 的 
形式 将 数据 返回 给 Python。 这 个 功能 使 Python 成 为 一 种 包装 C/C++/Fortran 历 史 代 码 库 的 
选择 ， 并 使 被 包装 库 拥 有 一 个 动态 的 、 易 用 的 接口 。 


NumPy 本 身 并 没有 提供 多 么 高 级 的 数据 分 析 功 能 ， 理 解 NumPy 数 组 以 及 面向 数组 的 计 
算 将 有 助 于 你 更 加 高 效 地 使 用 诸如 pandas 之 类 的 工具 。 如 果 你 是 Python 新 手 ， 而 且 只 
想 用 pandas 随 便 处 理 一 下 数据 就 行 ， 那 就 跳 过 本 章 吧 ， 没 关系 的 。 更 多 NumPy 高 级 功能 
(比如 广播 ) ， 请 参见 第 12 章 。 


对 于 大 部 分 数据 分 析 应 用 而 言 ， 我 最 关注 的 功能 主要 集中 在 : 


。 ”用 于 数据 整理 和 清理 、 子 集 构造 和 过 滤 、 转 换 等 快速 的 矢量 化 数组 运算 。 
。 ”常用 的 数组 算法 ， 如 排序 、 唯 一 化 、 集 合 运算 等 。 
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。 ”高效 的 描述 统计 和 数据 聚合 /摘要 运算 。 

。 ”用 于 异 构 数据 集 的 合并 /连接 运算 的 数据 对 齐 和 关系 型 数据 运算 。 

。 ”将 条 件 逻 辑 表 述 为 数组 表达 式 (而 不 是 带 有 if-elif-else 分 支 的 循环 ) 。 

。 ”数据 的 分 组 运算 (聚合 、 转 换 、 函 数 应 用 等 ) 。 第 5 章 将 对 此 进行 详细 讲解 。 
虽然 NumPy 提 供 了 这 些 功能 的 计算 基础 ， 但 你 可 能 还 是 想 将 pandas 作 为 数据 分 析 工 作 的 
基础 (尤其 是 对 于 结构 化 或 表格 化 数据 ) ， 因 为 它 提供 了 能 使 大 部 分 常见 数据 任务 变 得 


非常 简洁 的 丰富 高 级 接口 。pandas 还 提供 了 一 些 NumPy 所 没有 的 更 加 领域 特定 的 功能 ， 
如 时 间 序 列 处 理 等 。 





注意 ， 在 本 章 以 及 本 书 中 ， 我 将 依照 标准 的 NumPy 约 定 ， 即 总 是 使 用 import numpy as np。 当 然 ， 
你 也 可 以 为 了 不 写 np. 而 直接 在 代码 中 使 用 fom numpy inport *， 但 我 得 提醒 你 最 好 还 是 
不 要 养 成 这 样 的 坏 习 惯 。 


NumPy 的 ndarray: 一 种 多 维 数组 对 象 


NumPy 最 重要 的 一 个 特点 就 是 其 N 维 数组 对 象 ( 即 ndarray) ， 该 对 象 是 一 个 快速 而 灵活 
的 大 数据 集 容 器 。 你 可 以 利用 这 种 数组 对 整 块 数据 执行 一 些 数学 运算 ， 其 语法 跟 标 量 元 
素 之 间 的 运算 一 样 ; 

In [8]: data 

Out[8]: 


array([[ 0.9526, -0.246 , -0.8856], 
[ 0.5639, 0.2379, 0.9104]]) 


In [9]: data * 10 In [10]: data + data 

Out[9]: out[10]: 

array([[ 9.5256, -2.4601, -8.8565], array([[ 1.9051, -0.492 , -1.7713], 
[ 5.6385, 2.3794, 9.104 ]]) [ 1.1277, 0.4759, 1.8208]]) 


ndarray 是 一 个 通用 的 同 构 数据 多 维 容器 ， 也 就 是 说 ， 其 中 的 所 有 元 素 必 须 是 相同 类 型 
的 。 每 个 数组 都 有 一 个 shape (一 个 表示 各 维度 大 小 的 元 组 ) 和 一 个 dtype (一 个 用 于 说 
明 数 组 数据 类 型 的 对 象 ) : 

In [11]: data.shape 

Out[11]: (2, 3) 

In [12]: data.dtype 

Out[12]: dtype('float64') 
本 章 将 会 介绍 NumPy 数 组 的 基本 用 法 ， 这 对 于 本 书后 面 各 章 的 理解 基本 够 用 。 虽 然 大 多 
数 数据 分 析 工 作 不 需要 深入 理解 NumPy， 但 是 精通 面向 数组 的 编程 和 思维 方式 是 成 为 
Python 科学 计算 牛人 的 一 大 关键 步 又。 
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注意 : 当 你 在 本 书 中 看 到 “数组 ” 、“NumPy 数 组 、“ndarray” 时 ， 基 本 上 都 指 的 是 同一 样 东 
西 ， 即 ndarray 对 象 。 





创建 ndarray 
创建 数组 最 简单 的 办 法 就 是 使 用 array 函 数 。 它 接受 一 切 序 列 型 的 对 象 (包括 其 他 数 
组 ) ， 然 后 产生 一 个 新 的 含有 传人 数据 的 NumPy 数 组 。 以 一 个 列表 的 转换 为 例 ， 

In [13]: datal = [6, 7.5, 8, 0, 1] 

In [14]: arrl = np.array(datal) 


In [15]: arrl 
Out[15]: array([ 6. ，7.5，8. ，0. ，1. ]) 


伐 套 序列 〈 比 如 由 一 组 等 长 列表 组 成 的 列表 ) 将 会 被 转换 为 一 个 多 维 数组 : 
In [16]: data2 = [[1, 2, 3, 4], [5, 6, 7, 8]] 
In [17]: arr2 = np.array(data2) 
In [18]: arr2 
out[18] : 
axrray([[1，2，3，4]， 
[5, 6, 7, 8]]) 


In [19]: arr2.ndim 
Out[19]: 2 


In [20]: arr2.shape 

Out[20]: (2, 4) 
除非 显 式 说 明 ( 稍 后 将 会 详细 介绍 ) ，np.array 会 尝试 为 新 建 的 这 个 数组 推断 出 一 个 较 
为 合适 的 数据 类 型 。 数 据 类 型 保存 在 一 个 特殊 的 dtype 对 象 中 。 比 如 说 ， 在 上 面 的 两 个 
例子 中 ,我 们 有 : 





In [21]: arrl.dtype 
Out[21]: dtype("float64') 





In [22]: arr2.dtype 

Out[22]: dtype('int64') 
除 np.array 之 外 ， 还 有 一 些 函 数 也 可 以 新 建 数组 。 比 如 ，zeros 和 ones 分 别 可 以 创建 指定 
长 度 或 形状 的 全 0 或 全 1 数组 。empty 可 以 创建 一 个 没有 任何 具体 值 的 数组 。 要 用 这 些 方 
法 创建 多 维 数组 ， 只 需 传人 一 个 表示 形状 的 元 组 即 可 : 


In [23]: np.zeros(10) 
Out[23]: array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]) 
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In [24]: np.zeros((3, 6)) 
Out[24]: 

array([[ 0., 0., 0., 0., 0., 0.] 
EW Ds oy 
bgs Dis dss Ws Ds Oa] 


In [25]: np.empty((2, 3, 2)) 

Out[25]: 

array([[[ 4.94065646e-324, 4.94065646e-324], 
[ 3.87491056e-297, 2.46845796e-130], 
[ 4.94065646e-324, 4.94065646e-324]], 

[ 1.90723115e+083, 5.73293533e-053], 

-2.33568637e+124, -6.70608105e-012], 

4. 


[ 
[ 
[ 42786966e+160， 1.27100354e+025]]]) 





警告 ， 认为 np.empty 会 返回 全 0 数组 的 想法 是 不 安全 的 。 很 多 情况 下 (如 前 所 示 ) ， 它 返回 的 都 是 
- 些 未 初始 化 的 垃圾 值 。 





arange 是 Python 内 置 函 数 range 的 数组 版 : 


In [26]: np.arange(15) 
Out[26]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) 


表 4-1 列 出 了 一 些 数 组 创建 函数 。 由 于 NumPy 关 注 的 是 数值 计算 ， 因 此 ， 如 果 没 有 特别 
指定 ， 数 据 类 型 基本 都 是 float64 ( 浮 点 数 ) 。 


表 4-1: 数组 创建 函数 


函数 说 明 

array 将 输入 数据 (列表 、 元 组 、 数 组 或 其 他 序列 类 型 ) 转换 为 
ndarray。 要 么 推断 出 dtype， 要 么 显 式 指定 dtype。 默 认 直接 复 
制 输入 数据 

asarray 将 输入 转换 为 ndarray， 如 果 输 入 本 身 就 是 一 个 ndarray 就 不 进行 
复制 

arange 类 似 于 内 置 的 range， 但 返回 的 是 一 个 ndarray 而 不 是 列表 


ones、 ones_like 根据 指定 的 形状 和 dtype 创 建 一 个 全 1 数组 。ones_like 以 另 一 个 数 
组 为 参数 ， 并 根据 其 形状 和 dtype 创 建 一 个 全 1 数组 


zeros、zeros_like 类 似 于 ones 和 ones_like， 只 不 过 产生 的 是 全 0 数组 而 已 
empty、empty_like ”创建 新 数组 ， 只 分 配 内 存 空 间 但 不 填充 任何 值 
_eye、identity 创建 一 个 正方 的 N x N 单 位 矩阵 (对 角 线 为 1， 其 余 为 0) 
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ndarray 的 数据 类 型 


dtype (数据 类 型 ) 是 一 个 特殊 的 对 象 ， 它 含有 ndarray 将 一 块 内 存 解释 为 特定 数据 类 型 
所 需 的 信息 : 


In [27]: arrl = np.array([1, 2, 3], dtype=np.float64) 
In [28]: arr2 = np.array([1, 2, 3], dtype=np.int32) 


In [29]: arrl.dtype In [30]: arr2.dtype 

out[29]: dtype('float64') out[30]: dtype('int32') 
dtype 是 NumPy 如 此 强大 和 灵活 的 原因 之 一 。 多 数 情 况 下 ， 它 们 直接 映射 到 相应 的 机 
器 表示 ， 这 使 得 “ 读 写 磁盘 上 的 二 进 制 数据 流 ” 以 及 “集成 低级 语言 代码 (如 C、 
Fortran) ”等 工作 变 得 更 加 简单 。 数 值 型 dtype 的 命名 方式 相同 : 一 个 类 型 名 (如 float 
或 int) ,后 面 跟 一 个 用 于 表示 各 元 素 位 长 的 数字 。 标 准 的 双 精 度 浮 点 值 ( 即 Python 中 的 
float 对 象 ) 需要 占用 8 字 节 ( 即 64 位 ) 。 因 此 ， 该 类 型 在 NumPy 中 就 记 作 float64。 表 4-2 
列 出 了 NumPy 所 支持 的 全 部 数据 类 型 。 


注意 ; 记 不 住 这 些 NumPy 的 dtype 也 没关系 ， 新 手 更 是 如 此 。 通 常 只 需要 知道 你 所 处 理 的 数据 的 大 
致 类 型 是 浮 点 数 、 复 数 、 整 数 、 布 尔 值 、 字 符 串 ， 还 是 普通 的 Python 对 象 即 可 。 当 你 需要 
控制 数据 在 内 存 和 磁盘 中 的 存储 方式 时 (尤其 是 对 大 数据 集 ) ， 那 就 得 了 解 如 何 控制 存储 
类 型 。 


表 4-2: NumPy 的 数据 类 型 


类 型 类 型 代码 ”说 明 

int8、uint8 i1, ul 有 符号 和 无 符号 的 8 位 (1 个 字 节 ) 整 型 

int16、 uint16 i2、 u2 有 符号 和 无 符号 的 16 位 (2 个 字 节 ) 整 型 

int32、uint32 i4、 u4 有 符号 和 无 符号 的 32 位 (4 个 字 节 ) 整 型 

int64、uint64 i8、u8， 有 符号 和 无 符号 的 64 位 (8 个 字 节 ) 整 型 

float16 公 半 精 度 浮 点 数 

float32 人 或 f 标准 的 单 精度 浮 点 数 。 与 C 的 float 兼 容 

float64 f8 或 d 标准 的 双 精 度 浮 点 数 。 与 C 的 double 和 Python 
的 float 对 象 兼容 

float128 f16 或 g 扩展 精度 浮 点 数 

complex64、complex128、c8、c16、 ”分 别 用 两 个 32 位 、64 位 或 128 位 浮 点 数 表示 的 

complex256 c32 复数 

_bool 了 存储 True 和 False 值 的 布尔 类 型 








表 4-2: NumPy 的 数据 类 型 ( 续 ) 


类 型 


object 


string_ 


unicode_ 


类 型 代码 ”说 明 

O Python 对 象 类 型 

5 固定 长 度 的 字符 串 类 型 (每 个 字符 1 个 字 节 ) 。 
例如 ， 要 创建 一 个 长 度 为 10 的 字符 串 ， 应 使 用 
510 

U 固定 长 度 的 unicode 类 型 ( 字 节 数 由 平台 决定 ) 。 


跟 字符 束 的 定义 方式 一 样 (如 U10) 





你 可 以 通过 ndarray 的 astype 方 法 显 式 地 转换 其 dtype: 


In [31]: 


In [32]: 
Out[32]: 


In [33 


In [34 


Out[34]: 


在 本 例 中 ， 
截断 : 


In [35 


In [36]: 
: array([ 3.7, -1.2, -2.6, 0.5， 12.9， 10.1]) 


Out[36 


In [37]: 
Out[37]: 





arr = np.array([1, 2, 3, 4, 5]) 


arr.dtype 
dtype( "int64') 


: float_arr = arr.astype(np.float64) 


: float_arr.dtype 


dtype( "float64') 


整数 被 转换 成 了 浮 点 数 。 如 果 将 浮 点 数 转 换 成 整数 ， 则 小 数 部 分 将 会 被 


: arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1]) 


arr 


arr.astype(np.int32) 
array([ 3, -1, -2, 0, 12, 10], dtype=int32) 


如 果 某 字符 串 数组 表示 的 全 是 数字 ， 也 可 以 用 astype 将 其 转换 为 数值 形式 : 


In [38]: 





In [39 


numeric_strings = np.array(['1.25', '-9.6', '42°], dtype=np.string_) 


: numeric_strings.astype(float) 
out[39]: 


array([ 1.25， -9.6 ， 42. ]) 


如 果 转 换 过 程 因 为 某 种 原因 而 失败 了 (比如 某 个 不 能 被 转换 为 float64 的 字符 串 ) ， 就 会 
引发 一 个 TypeError。 看 到 了 吧 ， 我 比较 懒 ， 写 的 是 float 而 不 是 np.float64， NumPy 很 陪 
明 ， 它 会 将 Python 类 型 映射 到 等 价 的 dtype 上 。 


数组 的 dtype 还 有 另外 一 个 用 法 : 


In [40]: 


int_array = np.arange(10) 
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In [41]: calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64) 


In [42]: int_array.astype(calibers.dtype) 
Out[laz]s: ovrayll Os dor Hsp Fs ds Ps Bs Ts Be 9 


你 还 可 以 用 简洁 的 类 型 代码 来 表示 dtype: 
In [43]: empty_uint32 = np.empty(8, dtype="u4') 


In [44]: empty_uint32 

Out[44]: 

array([ 0, 0, 65904672, 0, 64856792, 0， 
39438163， 0], dtype=uint32) 


注意 ， 调 用 astype 无 论 如 何 都 会 创建 出 一 个 新 的 数组 (原始 数据 的 一 份 拷贝 ， 即 使 新 dtype 跟 老 
dtype 相 同 也 是 如 此 。 











敬告， 注意 ， 浮 点 数 (比如 foat64 和 floal32) 只 能 表示 近似 的 分 数值 。 在 复杂 计算 中 ， 由 于 可 能 会 
积累 一 些 浮 点 错误 ， 因 此 比较 操作 只 能 在 一 定 小 数位 以 内 有 效 。 





数组 和 标量 之 间 的 运算 
数组 很 重要 ， 因 为 它 使 你 不 用 编写 循环 即 可 对 数据 执行 批量 运算 。 这 通常 就 叫做 矢量 化 
(vectorization) 。 大 小 相等 的 数组 之 间 的 任何 算术 运算 都 会 将 运算 应 用 到 元 素 级 : 

In [45]: arr = np.array([[1., 2., 3.], [4., 5., 6.]]) 

In [46]: arr 


Out[46]: 
array( 


In [47]: arr * arr In [48]: arr - arr 

Out[47]: Out[48]: 

array([[ 1., 4., 9.]， array([[ 0., 0., 0.], 
[ 16., 25., 36.]]) [0., 0., 0.]]) 


同样 ， 数 组 与 标量 的 算术 运算 也 会 将 那个 标量 值 传播 到 各 个 元 素 : 


In [49]: 1 / arr In [50]: arr ** 0.5 

Out[49]: out[50]: 

array([[ 1. » 0.5 ，0.3333]， array([[ 1. ， 1.4142， 1.7321], 
[0.25 ，0.2 ，0.1667]]) [2. ， 2.2361, 2.4495]]) 


不 同 大 小 的 数组 之 间 的 运算 叫做 广播 (broadcasting) ， 我 们 将 在 第 12 章 中 对 其 进行 详细 
讨论 。 本 书 的 内 容 不 需要 对 广播 机 制 有 多 深 的 理解 。 
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基本 的 索引 和 切片 
NumPy 数 组 的 索引 是 一 个 内 容 丰 富 的 主题 ， 因 为 选取 数据 子 集 或 单个 元 素 的 方式 有 很 
多 。 一 维 数组 很 简单 。 从 表面 上 看 ， 它 们 跟 Python 列 表 的 功能 差不多 : 


In [51]: 


In [52]: 
Out[52]: 


In [53]: 
Out[53]: 


In [54]: 
Out[54]: 


In [55]: 


In [56]: 
Out[56]: 


如 上 所 示 





arr = np.arange(10) 


arr 
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


arr[5] 
， 


arr[5:8] 
array([5，6，7]) 


arr[5:8] = 12 


arr 
array([ 0, 1, 2, 3, 4, 12, 12, 12, 8, 9]) 


当 你 将 一 个 标量 值 赋值 给 一 个 切片 时 (如 arr[5:8] = 12) ， 该 值 会 自动 传播 


(也 就 说 后 面 将 会 讲 到 的 “广播 ”) 到 整个 选区 。 跟 列表 最 重要 的 区 别 在 于 ， 数 组 切片 
是 原始 数组 的 视图 。 这 意味 着 数据 不 会 被 复制 ， 视 图 上 的 任何 修改 都 会 直接 反映 到 源 数 


组 上 : 
In [57]: 
In [58]: 


In [59]: 
Out[59]: 


In [60]: 


In [61]: 
Out[61]: 


arr_slice = arr[5:8] 
arr_slice[1] = 12345 


arr 
array([ 0, 1, 2, 3, 4, 12,12345, 12, 8, 9]) 


arr_slice[:] = 64 


arr 
array([ 0, 1, 2, 3, 4, 64, 64, 64, 8, 9]) 


如 果 你 刚 开始 接触 NumPy， 可 能 会 对 此 感到 惊讶 (尤其 是 当 你 曾经 用 过 其 他 热 囊 于 复制 
数组 数据 的 编程 语言 ) 。 由 于 NumPy 的 设计 目的 是 处 理 大 数据 ， 所 以 你 可 以 想象 一 下 ， 
假如 NumPy 坚 持 要 将 数据 复制 来 复制 去 的 话 会 产生 何等 的 性 能 和 内 存 问题 。 





警告 ， 如 果 你 想 要 得 到 的 是 ndarray 切 片 的 一 份 副本 而 非 视图 ， 就 需要 显 式 地 进行 复制 操作 ， 例 如 
arr[5:8].copy()。 





对 于 高 维度 数组 ， 能 做 的 事情 更 多 。 在 一 个 二 维 数组 中 ， 各 索引 位 置 上 的 元 素 不 再 是 标 
量 而 是 一 维 数组 : 
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In [62]: arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) 


In [63]: arr2d[2] 
Out[63]: array([7, 8, 9]) 


因此 ， 可 以 对 各 个 元 素 进行 递归 访问 ， 但 这 样 需要 做 的 事情 有 点 多 。 你 可 以 传人 一 个 以 
逗号 隔 开 的 索引 列表 来 选取 单个 元 素 。 也 就 是 说 ， 下 面 两 种 方式 是 等 价 的 : 


In [64]: arr2d[0][2] 
out[64]: 3 


In [65]: arr2d[0, 2] 
Out[65]: 3 


图 4-1 说 明了 二 维 数组 的 索引 方式 。 








图 4-1; NumPy 数 组 中 的 元 素 索引 


在 多 维 数组 中 ， 如 果 省 略 了 后 面 的 索引 ， 则 返回 对 象 会 是 一 个 维度 低 一 点 的 ndarray ( 它 
含有 高 一 级 维度 上 的 所 有 数据 羡 坟 !) 。 因 此 ， 在 2x 2 x 3 数组 arr3d 中 : 


In [66]: arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) 


In [67]: arr3d 

Out[67]: 

array([[[ 1, 2, 3], 
[4, 5, 6]], 
[[ 7, 8, 9], 
[10, 11, 12]]]) 


译注 1: 括号 外 面 的 “维度 ”是 一 维 、 二 维 、 三 维 、 四 维 之 类 的 意思 ， 而 括号 里 面 的 应 该 理解 为 
“ 轴 ”。 也 就 是 说 ， 这 里 指 的 是 “返回 的 低 维 数组 含有 原始 高 维 数组 某 条 轴 上 的 所 有 
数据 ”。 
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arr3d[0] 是 一 个 2x 3 数组 : 


In [68]: arr3d[0] 
out[68]: 
array([[1, 2, 3], 
[4, 5, 6]]) 


标量 值 和 数组 都 可 以 被 赋值 给 arr3d[0] : 
In [69]: old_values = arr3d[0] .copy() 
In [70]: arr3d[0] = 42 
In [71]: arr3d 
array( [[42, 42, 42], 

[42, 42, 42]], 

[[ 7, 8, 9], 

[10, 11, 12]]]) 

In [72]: arr3d[0] = old_values 

In [73]: arr3d 

out[73]: 

array([[[ 1, 2, 3]， 

[4, 5, 6]], 


[[ 7, 8, 9], 
[10, 11, 12]]]) 


以 此 类 推 ，arr3d[1，0] 可 以 访问 索引 以 (1， 0) 开 头 的 那些 值 (以 一 维 数组 的 形式 
返回 ) ， 


In [74]: arr3d[1，0] 
out[74]: array([7，8，9]) 


注意 ， 在 上 面 所 有 这 些 选取 数组 子 集 的 例子 中 ， 返 回 的 数组 都 是 视图 。 








切片 索引 
ndarray 的 切片 语法 跟 Python 列 表 这 样 的 一 维 对 象 差 不 多 : 


In [75]: arr[1:6] 
out[75]: array([ 1, 2, 3, 4, 64]) 


高 维度 对 象 的 花样 更 多 ， 你 可 以 在 一 个 或 多 个 轴 上 进行 切片 ， 也 可 以 跟 整 数 索 引 混合 使 
用 。 对 于 上 面 那个 二 维 数组 arr24， 其 切片 方式 稍 显 不 同 : 


In [76]: arr2d In [77]: arr2d[:2] 

Out[76]: out[77]: 

array([[1, 2, 3], array([[1, 2, 3], 
[4, 5, 6], [4, 5, 6]]) 
[7, 8, 9]]) 
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可 以 看 出 ， 它 是 沿 着 第 0 轴 〈 即 第 一 个 轴 ) 切片 的 。 也 就 是 说 ， 切 片 是 沿 着 一 个 轴 向 选 
取 元 素 的。 你 可 以 一 次 传人 多 个 切片 ， 就 像 传人 多 个 索引 那样 : 

In [78]: arr2d[:2, 1:] 

Out[78]: 

array([[2, 3], 

[5s, 6]]) 

像 这 样 进行 切片 时 ， 只 能 得 到 相同 维 数 的 数组 视图 。 通 过 将 整数 索引 和 切片 混合 ， 可 以 
得 到 低 维度 的 切片 : 

In [79]: arr2d[1, :2] In [80]: arr2d[2, :1] 

out[79]: array([4, 5]) Out[80]: array([7]) 
图 4-2 对 此 进行 了 说 明 。 注 意 ，“ 只 有 冒号 ”表示 选取 整个 轴 ， 因 此 你 可 以 像 下 面 这 样 只 
对 高 维 轴 进 行 切片 : 


In [81]: arr2d[:, :1] 
Out[81]: 


自然 ， 对 切片 表达 式 的 赋值 操作 也 会 被 扩散 到 整个 选区 : 








In [82]: arr2d[:2, 1:] = 0 


布尔 型 索引 


来 看 这 样 一 个 例子 ， 假 设 我 们 有 一 个 用 于 存储 数据 的 数组 以 及 一 个 存储 姓名 的 数组 (含有 
重复 项 ) 。 在 这 里 ， 我 将 使 用 numpy.random 中 的 randn 函 数 生成 一 些 正 态 分 布 的 随机 数据 : 


In [83]: names = np.array(['Bob’, ‘Joe’, ‘Will’, ‘Bob’, ‘Will’, Joe’, 'Joe']) 
In [84]: data = randn(7, 4) 


In [85]: names 


Out[85]: 
array(['Bob', 'Joe’, 'Will’, ‘Bob’, "Will', 'Joe', 'Joe’], 
dtype=" |54') 


In [86]: data 

Out[86]: 

array([[-0.048 ， 0.5433, -0.2349, 1.2792]， 
[-0.268 ， 0.5465, 0.0939, -2.0445], 
[-0.047 , -2.026 ， 0.7719， 0.3103]， 
[ 2.1452, 0.8799, -0.0523, 0.0672]， 
[-1.0023, -0.1698, 1.1503, 1.7289], 
[ 0.1913， 0.4544, 0.4519, 0.5535]， 
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[ 0.5994, 0.8174, -0.9297, -1.2564]]) 四 





| Expression Shape 


arr[:2, 1:] tr 


ur 2] (3, 2) | 


| (2,) | 
arr[1:2, :2] (1, 2) 


arr[2] (3,) | 
arr[2, :] (3,) 
rt[2s; (1, 3) | 


图 4-2: 二 维 数组 切片 


自 设 每 个 名 字 都 对 应 data 数 组 中 的 一 行 ， 而 我 们 想 要 选 出 对 应 于 名 字 “Bob” 的 所 有 
行 。 跟 算术 运算 一 样 ， 数 组 的 比较 运算 (如 ==) 也 是 矢量 化 的 。 因 此 ， 对 names 和 字符 
串 “Bob” 的 比较 运算 将 会 产生 一 个 布尔 型 数组 : 





In [87]: names == “Bob” 
Out[87]: array([ True，False，False，True，False，False，False]，dtype=bool) 


这 个 布尔 型 数组 可 用 于 数组 索引 : 


In [88]: data[names == "Bob'] 
out[88] : 
array([[-0.048 ， 0.5433, -0.2349, 1.2792], 
[ 2.1452, 0.8799, -0.0523, 0.0672]]) 


布尔 型 数组 的 长 度 必 须 跟 被 索引 的 轴 长 度 一 致 。 此 外 ， 还 可 以 将 布尔 型 数组 跟 切片 、 整 
数 (或 整数 序列 ， 稍 后 将 对 此 进行 详细 讲解 ) 混合 使 用 : 


In [89]: data[names == 'Bob'，2:] 
Out[89]: 
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array([[-0.2349, 1.2792], 
[-0.0523， 0.0672]]) 


In [90]: data[names == 'Bob’, 3] 
Out[90]: array([ 1.2792, 0.0672]) 


要 选择 除 “Bob” 以 外 的 其 他 值 ， 既 可 以 使 用 不 等 于 符号 (!=) ， 也 可 以 通过 负 号 (一 ) 
对 条 件 进 行 否定 : 


In [91]: names != 'Bob' 
Out[91]: array([False, True, True, False, True, True, True], dtype=bool) 


In [92]: data[-(names == 'Bob')] 

Out[92]: 

array([[-0.268 ， 0.5465, 0.0939, -2.0445], 
[-0.047 , -2.026 ， 0.7719， 0.3103], 
[-1.0023, -0.1698, 1.1503, 1.7289], 
[ 0.1913, 0.4544, 0.4519, 0.5535]， 
[ 0.5994, 0.8174, -0.9297, -1.2564]]) 


选取 这 三 个 名 字 中 的 两 个 需要 组 合 应 用 多 个 布尔 条 件 ， 使 用 & (和 ) 、! (或 ) 之 类 的 布 
尔 算术 运算 符 即 可 : 





In [93]: mask = (names == 'Bob') | (nanes == 'Nill') 


In [94]: mask 
Out[94]: array([True, False, True, True, True, False, False], dtype=boo0l) 


In [95]: data[mask] 

Out[95]: 

array([[-0.048 ， 0.5433, -0.2349, 1.2792], 
[-0.047 , -2.026 ， 0.7719, 0.3103]， 
[ 2.1452, 0.8799, -0.0523, 0.0672], 
[-1.0023, -0.1698, 1.1503, 1.7289]]) 


通过 布尔 型 索引 选取 数组 中 的 数据 ， 将 总 是 创建 数据 的 副本 ， 即 使 返回 一 模 一 样 的 数组 
也 是 如 此 。 





警告 ， Python 关 键 字 and 和 or 在 布尔 型 数组 中 无 效 。 








通过 布尔 型 数组 设置 值 是 一 种 经 常用 到 的 手段 。 为 了 将 data 中 的 所 有 人 负 值 都 设置 为 0， 
我 们 只 需 : 


In [96]: data[data < 0] = 0 


In [97]: data 
out[97]: 
array([ ， 0.5433， 0. 5 212792]， 


[0 
[ 0. ，0.5465，0.0939，0. ]】， 
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. ，0. ，0.7719，0.3103]， 
.1452， 0.8799， 0. ， 0.0672]， 

，0. ， 1.1503, 1.7289], 
1913， 0.4544, 0.4519， 0.5535]， 
5994， 0.8174， 0. ,0. ]]) 


通过 一 维 布尔 数组 设置 整 行 或 列 的 值 也 很 简单 : 


In [98]: data[names != 'Joe’] =7 


ooono 


In [99]: data 


Out[99]: 

array([[ 7 3 
[0 ， 0.5465, 0.0939, 0. 】， 
| ]， 
[7 7 7 7 
[7 Was 
[ 0.1913, 0.4544, 0.4519, 0.5535], 
[ 0.5994, 0.8174, 0. -0 J 


花 式 索 引 


花 式 索引 (Fancy indexing) 是 一 个 NumPy 术 语 ， 它 指 的 是 利用 整数 数组 进行 索引 。 假 设 


我 们 有 一 个 8 x 4 数组 : 
In [100]: arr = np.empty((8, 4)) 


In [101]: for i in range(8): 
00s arr[i] = i 


In [102]: arr 


Out[102]: 

array([[ 0., 0., 0., 0.], 
[1 1., 1., 1.], 
[ 2. 26s 2., 2.], 
[3., 3., 3., 3.], 
[ 4. 4., 4.。 4.]。 
[5.，5.，5.，5.]， 
和 
【 7. 7. 7.，7.]]) 


为 了 以 特定 顺序 选取 行 子 集 ， 只 需 传人 一 个 用 于 指定 顺序 的 整数 列表 或 ndarray 即 可 : 


In [103]: arr[[4, 3, 0, 6]] 


Out[103]: 

array([[ 4., 4., 4-， 4.], 
[3., 3., 3., 3.], 
[0., 0., 0., 0.], 
[6., 6., 6., 6.]]) 


这 段 代码 确实 达到 我 们 的 要 求 了 ! 使 用 负数 索引 将 会 从 末尾 开始 选取 行 : 
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In [104]: arr[[-3，-5，-7]] 


out[104] : 
array([ 


-次 传人 多 个 索引 数组 会 有 一 点 特别 。 它 返回 的 是 一 个 一 维 数组 ， 其 中 的 元 素 对 应 各 个 


索引 元 组 : 


# 有 关 reshape 的 知识 将 在 第 12 章 中 讲解 
In [105]: arr = np.arange(32).reshape((8, 4)) 


In [106]: arr 
Out[106]: 
array([[ 0, 1， 
[ 4, 5 
8，9， 
12，13， 
16，17， 
[20，21， 
24，25， 
28，29， 





2, 

6, 
10， 
14， 
18， 
[ 
26， 
30, 


3]， 

7]， 
11], 
15]， 
19]， 
23]， 
27]， 
31]]) 


In [107]: arr[[1, 5, 7, 2], [0, 3, 1, 2]] 
Out[107]: array([ 4, 23, 29, 10]) 


我 们 来 看 看 具体 是 怎么 一 回 事 。 最 终 选 出 的 是 元 素 (1, 0)、(5, 3)、(7, 1) 和 (2, 2)。 这 个 花 
式 索 引 的 行为 可 能 会 跟 某 些 用 户 的 预期 不 一 样 (包括 我 在 内 ) ,选取 矩阵 的 行列 子 集 应 
该 是 矩形 区 域 的 形式 才 对 。 下 面 是 得 到 该 结果 的 一 个 办 法 : 


In [108]: arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] 


Out[108]: 


array([[ 4, 7, 5， 
I0;. 393; 24y 
28, 31, 29, 
8, 11, 9， 


另外 一 个 办 法 是 使 用 np.ix_ 函 数 ， 它 可 以 将 两 个 一 维 整数 数组 转换 为 一 个 用 于 选取 方形 


区 域 的 索引 器 : 


In [109]: arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])] 


Out[109]: 
array([[ 4, 7， 
[20, 23, 
28, 31, 
[ 8, 11, 





记 住 ， 花 式 索引 跟 切 片 不 一 样 ， 它 总 是 将 数据 复制 到 新 数组 中 。 
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数组 转 置 和 轴 对 换 
转 置 (transpose) 是 重 塑 的 一 种 特殊 形式 ， 它 返回 的 是 源 数据 的 视图 (不 会 进行 任何 复 
制 操作 ) 。 数 组 不 仅 有 transpose 方 法 ， 还 有 一 个 特殊 的 T 属 性 : 


In [110]: arr = np.arange(15).reshape((3, 5)) 


In [111]: arr 
Out[111]: 
array([[ 0, 1, 2, 3, 4], 
[5, 6, 7, 8, 9], 
[10, 11, 12, 13, 14]]) 
In [112]: arr.T 

Out[112]: 
array([[ 0, 5, 10], 
1, 6, 11], 
[2, 7, 12], 
3, 8, 13], 
[ 4, 9, 14]]) 


在 进行 矩阵 计算 时 ， 经 常 需要 用 到 该 操作 ， 比 如 利用 np.dot 计 算 矩 阵 内 积 XTX， 
In [113]: arr = np.random.randn(6, 3) 


In [114]: np.dot(arr.T, arr) 





Out[114]: 

array([[ 2.584 ， 1.8753， 0.8888] ， 
[ 1.8753， 6.6636， 0.3884] ， 
0.8888， 0.3884, 3.9781]]) 


对 于 高 维 数组 ，transpose 需 要 得 到 一 个 由 轴 编号 组 成 的 元 组 才能 对 这 些 轴 进 行 转 置 
(比较 费 脑子 ) : 

In [115]: arr = np.arange(16).reshape((2, 2, 4)) 

In [116]: arr 


out[116] : 
array([[[ 0, 1, 2, 3], 


[12, 13, 14, 15]]]) 
In [117]: arr.transpose((1, 0, 2)) 
Out[117]: 
array([[[ 0, 1, 2, 3], 
[ 8, 9, 10, 11]], 
7]， 
[12, 13, 14, 15]]]) 
简单 的 转 置 可 以 使 用 .T， 它 其 实 就 是 进行 轴 对 换 而 已 。ndarray 还 有 一 个 swapaxes 方 法 ， 
它 需要 接受 一 对 轴 编 号 : 
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In [118]: arr 

out[118] : 

array([[[ 0，1， 2，3]， 
[4，5，6，7]]， 


[[ 8, 9, 10, 11], 
[12, 13, 14, 15]]]) 
In [119]: arr.swapaxes(1, 2) 
Out[119]: 
array([[[ 0, 4], 


[11, 15]]]) 
swapaxes 也 是 返回 源 数 据 的 视图 (不 会 进行 任何 复制 操作 ) 。 


vy sd 
通用 函数 : 快速 的 元 素 级 数组 函数 
通用 函数 ( 即 ufunc) 是 一 种 对 ndarray 中 的 数据 执行 元 素 级 运算 的 函数 。 你 可 以 将 其 看 
做 简单 函数 (接受 一 个 或 多 个 标量 值 ， 并 产生 一 个 或 多 个 标量 值 ) 的 矢量 化 包装 器 。 
许多 ufunc 都 是 简单 的 元 素 级 变 体 ， 如 sqrt 和 exp: 

In [120]: arr = np.arange(10) 

In [121]: np.sqrt(arr) 

Out[121]: 

array([ 0. ， 1. ， 1.4142, 1.7321, 2. ， 2.2361, 2.4495, 

2.6458, 2.8284, 3. ]) 
In [122]: np.exp(arr) 
Out[122]: 


array([ 1. . 2.7183, 7.3891, 20.0855， 54.5982， 
148.4132， 403.4288, 1096.6332, 2980.958 ， 8103.0839]) 


这 些 都 是 一 元 (unary) ufunc。 另 外 一 些 (如 add 或 maximum) 接受 2 个 数组 (因此 也 叫 二 
元 (binary) ufunc) ， 并 返回 一 个 结果 数组 : 

In [123]: x = randn(8) 

In [124]: y = randn(8) 

In [125]: x 


Out[125]: 
array([ 0.0749, 0.0974, 0.2002, -0.2551, 0.4655, 0.9222, 0.446 ， -0.9337]) 
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In [126 


Out[126]: 


array([ 


In [127]: 


Out[127 
array([ 


]: y 

0.267 ，-1.1131，-0.3361， 0.6117, -1.2323, 0.4788, 0.4315, -0.7147]) 
np.maximum(x，y) # 元 素 级 最 大 值 

Doyo 0.0974, 0.2002, 0.6117, 0.4655, 0.9222, 0.446 ， -0.7147]) 


虽然 并 不 常见 ， 但 有 些 ufunc 的 确 可 以 返回 多 个 数组 。modf 就 是 一 个 例子 ， 它 是 Python 内 
置 函 数 divmod 的 矢量 化 版 本 ， 用 于 浮 点 数 数组 的 小 数 和 整数 部 分 。 








: arr = randn(7) * 5 
]: np.modf(arr) 


- 0.0636, -0.386 ， 0.1393，-0.8806， 0.9363，-0.883 ]), 
-2 ，4.，-3.，5.，-3.，3.，-6.])) 





表 4-3 和 表 4-4 分 别 列 出 了 一 些 一 元 和 二 元 ufunc。 


表 4-3: 一 元 ufunc 


函数 
abs、fabs 


sqrt 
square 


exp 


说 明 

计算 整数 、 浮 点 数 或 复数 的 绝对 值 。 对 于 非 复 数值 ， 可 以 
使 用 更 快 的 fabs 

计算 各 元 素 的 平方 根 。 相 当 于 arr ** 0.5 
计算 各 元 素 的 平方 。 相 当 于 arr * 2 

计算 各 元 素 的 指数 e” 


log、log10、log2、log1p ”分 别 为 自然 对 数 (底数 为 e) 、 底 数 为 10 的 log、 底 数 为 2 的 


log、 log(1 +x) 


sign 计算 各 元 素 的 正 负 号 : 1 ( 正 数 ) 、0 ( 零 ) 、 一 1 (负数 ) 
ceil 计算 各 元 素 的 ceiling 值 ， 即 大 于 等 于 该 值 的 最 小 整数 

floor 计算 各 元 素 的 floor 值 ， 即 小 于 等 于 该 值 的 最 大 整数 

rint 将 各 元 素 值 四舍五入 到 最 接近 的 整数 ， 保 留 dtype 

modf 将 数组 的 小 数 和 整数 部 分 以 两 个 独立 数组 的 形式 返回 
isnan 返回 一 个 表示 “哪些 值 是 NaN (这 不 是 一 个 数字 ) ”的 布 

尔 型 数组 
isfinite 、isinf 分 别 返 回 一 个 表示 “哪些 元 素 是 有 穷 的 ( 非 inf， 非 


NaN) ”或 “哪些 元 素 是 无 穷 的 ”的 布尔 型 数组 


cos、cosh、sin、sinh、 普通 型 和 双 曲 型 三 角 函 数 


tan、tanh 
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表 4-3: 一 元 ufunc ( 续 ) 
函数 说 明 


arccos、arccosh、arcsin、 反 三 角 函 数 
arcsinh、arctan、arctanh 


logical_not 计算 各 元 素 not x 的 真 值 。 相 当 于 -arr 





表 4-4: 二 元 ufunc 


函数 说 明 

add 将 数组 中 对 应 的 元 素 相 加 

subtract 从 第 一 个 数组 中 减 去 第 二 个 数组 中 的 元 素 

multiply 数组 元 素 相 乘 

divide、floor_divide 。 除法 或 向 下 圆 整除 法 (丢弃 余数 ) 

power 对 第 一 个 数组 中 的 元 素 A， 根据 第 二 个 数组 中 的 相应 元 素 B， 计 
算 A 

maximum、fmax 元 素 级 的 最 大 值 计 算 。fmax 将 忽略 NaN 

minimum、fmin 元 素 级 的 最 小 值 计算 。fmin 将 忽略 NaN 

mod 元 素 级 的 求 模 计算 (除法 的 余数 ) 

copysign 将 第 二 个 数组 中 的 值 的 符号 复制 给 第 一 个 数组 中 的 值 


greater、greater_equal、 执行 元 素 级 的 比较 运算 ， 最 终 产 生 布 尔 型 数组 。 相 当 于 中 缀 运 
less、less_equal、 算 符 >、>=、<、<=、==、|= 

equal、not_equal 

logical_and、logical_or、 执行 元 素 级 的 真 值 逻辑 运算 。 相 当 于 中 缀 运算 符 &、|、^ 
logical_xor 


利用 数组 进行 数据 处 理 


NumPy 数 组 使 你 可 以 将 许多 种 数据 处 理 任务 表述 为 简洁 的 数组 表达 式 (否则 需要 编写 循 
环 ) 。 用 数组 表达 式 代替 循环 的 做 法 ， 通 常 被 称 为 矢量 化 。 一 般 来 说 ， 矢 量化 数组 运算 
要 比 等 价 的 纯 Python 方 式 快 上 一 两 个 数量 级 (甚至 更 多 ) ， 尤 其 是 各 种 数值 计算 。 在 后 
面 内 容 中 〈 见 第 12 章 ) 我 将 介绍 广播 ， 这 是 一 种 针对 矢量 化 计算 的 强大 手段 。 





假设 我 们 想 要 在 一 组 值 (网 格 型 ) 上 计算 函数 sqrt(x^2 + y^2)。np.meshgrid 函 数 接受 
两 个 一 维 数组 ， 并 产生 两 个 二 维 矩阵 (对 应 于 两 个 数组 中 所 有 的 (x，y) 对 ) : 


In [130]: points = np-arange(-5，5，0.01) # 1000 个 间隔 相等 的 点 
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In [131]: xs, ys = np.meshgrid(points, points) 


5 sm 
，-4.99，-4.99，-4.99]， 
2 -4.98, -4.98, -4.98], 








4.97， 4.97， 4.97，.…， 4.97， 4.97， 4.97]， 
， 4.98， 4.98， 4.98]， 
4.99， 4.99， 4.99，...， 4.99， 4.99， 4.99]]) 
现在 ， 对 该 函数 的 求 值 运算 就 好 办 了 ， 把 这 两 个 数组 当做 两 个 浮 点 数 那样 编写 表达 式 
即 可 : 





In [134]: import matplotlib.pyplot as plt 








In [135 = np.sqrt(xs ** 2 + ys ** 2) 

In [136]: z 

Out[136 

array([[ 7.0711, 7.064 ，7.0569，..， 7.0499，7.0569，7.064 ]， 
[ 7.064 ， 7.0569， 7.0499，.…， 7.0428， 7.0499, 7.0569], 
7.0569， 7.0499， 7.0428，.…， 7.0357，7.0428，7.0499]， 
[ 7.0499， 7.0428, 7.0357, ...» 7.0286, 7.0357, 7.0428], 
7.0569， 7.0499，7.0428，.…， 7.0357，7.0428，7.0499]， 
7.064 ， 7.0569，7.0499，.…， 7.0428，7.0499，7.0569]]) 


In [137]: plt.imshow(z, cmap=plt.cm.gray); plt.colorbar() 
Out[137]: <matplotlib.colorbar.Colorbar instance at Ox4e46d40> 


In [138]: plt.title("Image plot of $\sqrtfx^2 + y^2}$ for a grid of values") 
Out[138]: <matplotlib. text.Text at Ox4565790> 





函数 值 (一 个 二 维 数组 ) 的 图 形 化 结果 如 图 4-3 所 示 。 这 张 图 我 是 用 matplotlib 的 imshow 
函数 创建 的 。 


将 条 件 逻 辑 表述 为 数组 运算 
numpy .where 函 数 是 三 元 表达 式 x if condition else y 的 矢量 化 版 本 。 假 设 我 们 有 一 个 
布尔 数组 和 两 个 值 数组 : 





In [140]: xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5]) 
In [141]: yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5]) 


In [142]: cond = np.array([True, False, True, True, False]) 
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Image plot of yz + fora grid of values 
| 
| 














图 4-3: 根据 网 格 对 函数 求 值 的 结果 


假设 我 们 想 要 根据 cond 中 的 值 选 取 xarr 和 yarr 的 值 ， 当 cond 中 的 值 为 True 时 ， 选 取 xarr 
的 值 ， 否 则 从 yarr 中 选取 。 列 表 推 导 式 的 写法 应 该 如 下 所 示 : 





In Baal: result = [(x if c else y) 
for x, y, c in zip(xarr, yarr, cond)] 


In [144]: result 

Out[144]: [1.1000000000000001，2.2000000000000002，1.3，1.3999999999999999，2.5] 
这 有 几 个 问题 。 第 一 ， 它 对 大 数组 的 处 理 速度 不 是 很 快 〈 因 为 所 有 工作 都 是 由 纯 Python 
完成 的 ) 。 第 二 ， 无 法 用 于 多 维 数组 。 若 使 用 np.where， 则 可 以 将 该 功能 写 得 非常 
简洁 : 


In [145]: result = np.where(cond, xarr, yarr) 


In [146]: result 

Out[146]: array([ 1.1, 2.2, 1.3, 1.4, 2.5]) 
np.where 的 第 二 个 和 第 三 个 参数 不 必 是 数组 ， 它 们 都 可 以 是 标量 值 。 在 数据 分 析 工 作 
中 ，where 通 常用 于 根据 另 一 个 数组 而 产生 一 个 新 的 数组 。 假 设 有 一 个 由 随机 数据 组 成 


的 矩阵 ， 你 希望 将 所 有 正 值 替换 为 2， 将 所 有 负 值 替换 为 -2。 若 利用 np.where， 则 会 非 
常 简单 : 


In [147]: arr = randn(4, 4) 


In [148]: arr 
Out[148]: 
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array([[ 0.6372, 2.2043, 1.7904, 0.0752], 
[-1.5926, -1.1536, 0.4413， 0.3483], 
[-0.1798, 0.3299, 0.7827, -0.7585], 
[ 0.5857, 0.1619, 1.3583, -1.3865]]) 


In [149]: np.where(arr > 0, 2, -2) 
Out[149]: 
array([[ 2, 2, 2, 2]， 

[-2, -2, 2, 2], 

[-2, 2, 2, -2], 

[2, 2, 2, -2]]) 


In [150]: np.where(arr > 0，2，arr) # 只 将 正 值 设置 为 2 


Out[150]: 

array([[ 2. Ee 3 Po 3B 
[-1.5926, -1.1536, 2. 是 各 En 
[-0.1798, 2. » 再 ，-0.7585] 
Li ” Ye 2. ，-1.3865]]) 


传递 给 where 的 数组 大 小 可 以 不 相等 ， 甚 至 可 以 是 标量 值 。 


只 要 稍微 动 动脑 子 ， 你 就 能 用 where 表 述 出 更 复杂 的 逻辑 。 想 象 一 下 这 样 一 个 例子 ， 
我 有 两 个 布尔 型 数组 cond1 和 cond2， 和 希望 根据 4 种 不 同 的 布尔 值 组 合 实现 不 同 的 赋值 
操作 : 
result = [] 
for i in range(n): 
if condi[i] and cond2[i]: 
result.append(0) 
elif cond1[i]: 
result.append(1) 
elif cond2[i]: 
result.append(2) 
else: 
result.append(3) 


虽然 不 是 非常 明显 ， 但 这 个 for 循 环 确实 可 以 被 改写 成 一 个 伐 套 的 where 表 达 式 : 
np.where(cond1 & cond2, 0, 
np.where(cond1, 1, 


np.where(cond2, 2, 3))) 


在 这 个 特殊 的 例子 中 ， 我 们 还 可 以 利用 “布尔 值 在 计算 过 程 中 可 以 被 当做 0 或 1 处 理 ”这 
个 事实 ， 所 以 还 能 将 其 写成 下 面 这 样 的 算术 运算 (虽然 看 上 去 有 点 神秘 ) : 


result = 1* (cond1 -cond2) + 2 * (cond2 & -cond1) + 3 * -(cond1 | cond2) 


数学 和 统计 方法 
可 以 通过 数组 上 的 一 组 数学 函数 对 整个 数组 或 某 个 轴 向 的 数据 进行 统计 计算 。s um、 
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mean 以 及 标准 差 std 等 聚合 计算 (aggregation， 通 常 叫做 约 简 (reduction) ) 既 可 以 当做 
数组 的 实例 方法 调用 ， 也 可 以 当做 顶级 NumPy 函 数 使 用 : 


In [151]: arr = np.random.randn(5，4) # 正 态 分 布 的 数据 


In [152]: arr.mean() 
Out[152]: 0.062814911084854597 


In [153]: np.mean(arr) 
Out[153]: 0.062814911084854597 


In [154]: arr.sum() 
Out[154]: 1.2562982216970919 


mean 和 sum 这 类 的 函数 可 以 接受 一 个 axis 参 数 (用 于 计算 该 轴 向 上 的 统计 值 ) ， 最 终结 果 
是 一 个 少 一 维 的 数组 : 


In [155]: arr.mean(axis=1) 


Out 


In 


155]: array([-1.2833, 0.2844, 0.6574, 0.6743, -0.0187]) 


156]: arr.sum(0) 


Out[156]: array([-3.1003, -1.6189, 1.4044, 4.5712]) 


其 他 如 cumsum 和 cumprod 之 类 的 方法 则 不 聚合 ， 而 是 产生 一 个 由 中 间 结 果 组 成 的 数组 : 


In 


In 


Out 


157]: arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) 


158]: arr.cumsum(0) 
158]: 


array([[ 0，1， 2]， 


[3，5，7]， 
9, 12, 15]]) 


In [159]: arr.cumprod(1) 


Out 


159] : 


array([[ 0， 0， 0]， 





[ 3, 12, 60], 
6, 42, 336]]) 





表 4-5 列 出 了 全 部 的 基本 数组 统计 方法 。 后 续 章 节 中 有 很 多 例子 都 会 用 到 这 些 方 法 。 
表 4-5: 基本 数组 统计 方法 

方法 说 明 

sum 对 数组 中 全 部 或 某 轴 向 的 元 素 求 和 。 零 长 度 的 数组 的 sum 为 0 
mean 算术 平均 数 。 零 长 度 的 数组 的 mean 为 NaN 

std、var 分 别 为 标准 差 和 方差 ， 自 由 度 可 调 (默认 为 n) 

min、max 最 大 值 和 最 小 值 


argmin、 argmax 分 别 为 最 大 和 最 小 元 素 的 索引 
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表 4-5: 基本 数组 统计 方法 〈 续 ) 


方法 说 明 
cumsum 所 有 元 素 的 累计 和 
cumprod 所 有 元 素 的 累计 积 





用 于 布尔 型 数组 的 方法 


在 上 面 这 些 方法 中 ， 布 尔 值 会 被 强制 转换 为 1 (True) 和 0 (False) 。 因 此 ，sum 经 常 被 


用 来 对 布尔 型 数组 中 的 True 值 计 数 : 
In [160]: arr = randn(100) 


In [161]: (arr > 0).sum() # 正 值 的 数量 
Out[161]: 44 


另外 还 有 两 个 方法 any 和 al11， 它 们 对 布尔 型 数组 非常 有 用 。any 用 于 测试 数组 中 是 否 存在 


-个 或 多 个 True， 而 al1 则 检查 数组 中 所 有 值 是 否 都 是 True: 
In [162]: bools = np.array([False, False, True, False]) 


In [163]: bools.any() 
Out[163]: True 


In [164]: bools.all() 
Out[164]: False 


这 两 个 方法 也 能 用 于 非 布尔 型 数组 ， 所 有 非 0 元 素 将 会 被 当做 True。 


排序 
跟 Python 内 置 的 列表 类 型 一 样 ，NumPy 数 组 也 可 以 通过 sort 方 法 就 地 排序 : 
In [165]: arr = randn(8) 


In [166]: arr 
Out[166]: 


array([ 0.6903, 0.4678, 0.0968, -0.1349, 0.9879, 0.0185, -1.3147, -0.5425]) 


In [167]: arr.sort() 

In [168]: arr 

Out[168]: 

array([-1.3147, -0.5425, -0.1349, 0.0185, 0.0968, 0.4678, 0.6903, 0.9879]) 


多 维 数组 可 以 在 任何 一 个 轴 向 上 进行 排序 ， 只 需 将 轴 编 号 传 给 sort 即 可 : 


In [169]: arr = randn(5, 3) 
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In [170]: arr 
Out[170]: 
array([[-0.7139, -1.6331, -0.4959], 
[ 0.8236, -1.3132, -0.1935], 
-1.6748， 3.0336, -0.863 ]， 
-0.3161, 0.5362, -2.468 ], 
0.9058, 1.1184, -1.0516]]) 


In [171]: arr.sort(1) 


In [172]: arr 
Out[172]: 
array([[-1.6331, -0.7139, -0.4959], 

[-1.3132, -0.1935, 0.8236], 

-1.6748, -0.863 ， 3.0336]， 

[-2.468 ，-0.3161， 0.5362], 

-1.0516, 0.9058， 1.1184]]) 

顶级 方法 np.sort 返 回 的 是 数组 的 已 排序 副本 ， 而 就 地 排序 则 会 修改 数组 本 身 。 计 算数 
组 分 位 数 最 简单 的 办 法 是 对 其 进行 排序 ， 然 后 选取 特定 位 置 的 值 ; 


In [173]: large_arr = randn(1000) 
In [174]: large_arr.sort() 


In [175]: large_arr[int(0.05 * len(large_arr))] # 5% 分 位 数 

Out[175]: -1.5791023260896004 
更 多 关于 NumPy 排 序 方法 以 及 诸如 间接 排序 之 类 的 高 级 技术 ， 请 参阅 第 12 章 。 在 pandas 
中 还 可 以 找到 一 些 其 他 跟 排序 有 关 的 数据 操作 (比如 根据 一 列 或 多 列 对 表格 型 数据 进行 
排序 ) 。 


唯一 化 以 及 其 他 的 集合 逻辑 
NumPy 提 供 了 一 些 针对 一 维 ndarray 的 基本 集合 运算 。 最 常用 的 可 能 要 数 np.unique 了 ， 
它 用 于 找 出 数组 中 的 唯一 值 并 返回 已 排序 的 结果 : 





In [176]: names = np.array(['Bob', ‘Joe’, ‘Will’, ‘Bob’', 'Will', 'Joe’, 'Joe']) 
In [177]: np.unique(names) 
Out[177]: 
array(['Bob', 'Joe’, ‘Will’], 
dtype="|54') 
In [178]: ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4]) 


In [179]: np.unique(ints) 
Out[179]: array([1, 2, 3, 4]) 


拿 跟 np.unique 等 价 的 纯 Python 代 码 来 对 比 一 下 : 
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In [180]: sorted(set (names)) 
Out[180]: ['Bob'，'Joe'，"ill'] 


另 一 个 函数 np.in1d 用 于 测试 一 个 数组 中 的 值 在 另 一 个 数组 中 的 成 员 资格 ， 返 回 一 个 布 
尔 型 数组 : 
In [181]: values = np.array([6, 0, 0, 3, 2, 5, 6]) 


In [182]: np.inid(values, [2, 3, 6]) 
Out[182]: array([ True, False, False, True, True, False, True], dtype=bool) 


NumPy 中 的 集合 函数 请 参见 表 4-6。 
表 4-6: 数组 的 集合 运算 


方法 说 明 

uniquel(x) 计算 x 中 的 唯一 元 素 ， 并 返回 有 序 结果 

intersect1d(x, y) 计算 x 和 y 中 的 公共 元 素 ， 并 返回 有 序 结果 

union1d(x, y) 计算 x 和 y 的 并 集 ， 并 返回 有 序 结果 

in1d(x, y) 得 到 一 个 表示 “x 的 元 素 是 否 包含 于 y” 的 布尔 型 数组 

setdiff1d(x, y) 集合 的 差 ， 即 元 素 在 x 中 且 不 在 y 中 

setxor1d(x, y) 集合 的 对 称 痊 。 即 存在 于 一 个 数组 中 但 不 同时 存在 于 两 个 数组 中 的 
元 素 


用 于 数组 的 文件 输入 输出 
Numpy 能 够 读 写 厂 盘 上 的 文本 数据 或 二 进 制 数据 。 后 面 的 章节 将 会 告诉 你 一 些 pandas 中 
用 于 将 表格 型 数据 读 取 到 内 存 的 工具 。 





将 数组 以 二 进 制 格式 保存 到 磁盘 
np.save 和 np.1oad 是 读 写 磁盘 数组 数据 的 两 个 主要 函数 。 默 认 情 况 下 ， 数 组 是 以 未 压缩 
的 原始 二 进 制 格式 保存 在 扩展 名 为 .npy 的 文件 中 的 。 

In [183]: arr = np.arange(10) 

In [184]: np.save('some_array'，arr) 
如 果 文 件 路 径 末 尾 没 有 扩展 名 .npy， 则 该 扩展 名 会 被 自动 加 上 。 然 后 就 可 以 通过 
np.1oad 读 取 磁 盘 上 的 数组 : 


译注 2: 简单 点 说 ， 就 是 “ 异 或 ”。 
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In [185]: np.load('some_array.npy’) 
Out[185]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


通过 np.savez 可 以 将 多 个 数组 保存 到 一 个 压缩 文件 中 ， 将 数组 以 关键 字 参 数 的 形式 传人 
即 可 : 
In [186]: np.savez('array_archive.npz', a=arr, b=arr) 
加 载 .npz 文 件 时 ， 你 会 得 到 一 个 类 似 字 典 的 对 象 ， 该 对 象 会 对 各 个 数组 进行 延迟 加 载 : 
In [187]: arch = np.load('array_archive.npz') 


In [188]: arch['b'] 
out[188]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


存 取 文 本 文件 

从 文件 中 加 载 文本 是 一 个 非常 标准 的 任务 。Python 中 的 文件 读 写 函 数 的 格式 很 容易 将 新 
手 搞 芝 ， 所 以 我 将 主要 介绍 pandas 中 的 read_csv 和 read_table 函 数 。 有 时 ， 我 们 需要 用 
np.1oadtxt 或 更 为 专门 化 的 np.genfromtxt 将 数据 加 载 到 普通 的 NumPy 数 组 中 。 


这 些 函 数 都 有 许多 选项 可 供 使 用 指定 各 种 分 隔 符 、 针 对 特定 列 的 转换 器 函数 、 需 要 跳 
过 的 行 数 等 。 以 一 个 简单 的 逗号 分 隔 文件 (CSV) 为 例 : 





In [191]: !cat array_ex.txt 评 注 3 
0.580052,0.186730,1.040717,1.134411 
0.194163,-0.636917,-0.938659,0.124094 
-0.126410,0.268607,-0.695724,0.047428 
-1.484413,0.004176,-0.744203,0.005487 
2.302869,0.200131,1.670238, -1.881090 
-0.193230,1.047233,0.482803,0.960334 


该 文件 可 以 被 加 载 到 一 个 二 维 数组 中 ， 如 下 所 示 : 
In [192]: arr = np.loadtxt("array_ex.txt'，delimiter='，) 


In [193]: arr 

Out[193]: 

array([[ 0.5801, 0.1867, 1.0407, 1.1344], 
[ 0.1942, -0.6369, -0.9387, 0.1241], 
[-0.1264, 0.2686, -0.6957, 0.0474], 
[-1.4844, 0.0042, -0.7442, 0.0055]， 
[ 2.3029, 0.2001, 1.6702, -1.8811], 
[-0.1932, 1.0472, 0.4828, 0.9603]]) 


np.savetxt 执 行 的 是 相反 的 操作 : 将 数组 写 到 以 某 种 分 隔 符 隔 开 的 文本 文件 中 。 


译注 3: 这 是 Linux 的 ，Windows 得 用 type。 
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genfromtxt 跟 1oadtxt 差 不 多 ， 只 不 过 它 面向 的 是 结构 化 数组 和 缺失 数据 处 理 。 更 多 有 关 
结构 化 数组 的 知识 ， 请 参阅 第 12 章 。 





注意 ， 更 多 有 关 文 件 读 写 (尤其 是 表格 型 数据 ) 的 知识 ， 请 参阅 本 书后 面 有 关 pandas 和 DataFrame 





线性 代数 


线性 代数 (如 矩阵 乘法 、 和 矩阵 分 解 、 行 列 式 以 及 其 他 方 阵 数学 等 ) 是 任何 数组 库 的 重要 
组 成 部 分 。 不 像 某 些 语言 (如 MATLAB) ， 通 过 * 对 两 个 二 维 数组 相 乘 得 到 的 是 一 个 元 
素 级 的 积 ， 而 不 是 一 个 矩阵 点 积 。 因 此 ，NumPy 提 供 了 一 个 用 于 矩阵 乘法 的 dot 函 数 ( 既 
是 一 个 数组 方法 也 是 numpy 命 名 空间 中 的 一 个 函数 ) : 





In [194]: x = np.array([[1., 2., 3.], [4., 5., 6.]]) 


In [195]: y = np.array([[6., 23.], [-1, 7], [8, 9]]) 


In [196]: x In [197]: y 
Out[196]: Out[197]: 
array([[ 1., 2., 3.], array([[ 6., 23.], 
4., 5.， 6.]]) -1., 7.]， 
[ 8., 9.]]) 


In [198]: x.dot(y) # 相当 于 np.dot(x，y) 
out[198] : 
array([[ 28., 64.]， 
67.， 181.]]) 


-个 二 维 数组 跟 一 个 大 小 合适 的 一 维 数组 的 矩阵 点 积 运算 之 后 将 会 得 到 一 个 一 维 数组 : 


In [199]: np.dot(x, np.ones(3)) 
Out[199]: array([ 6.， 15.]) 








numpy.1inalg 中 有 一 组 标准 的 矩阵 分 解 运算 以 及 诸如 求 逆 和 行列 式 之 类 的 东西 。 它 们 跟 
MATLAB 和 R 等 语言 所 使 用 的 是 相同 的 行业 标准 级 Fortran 库 ， 如 BLAS、LAPACK、Intel 
MKL (可 能 有 ， 取 决 于 你 的 NumPy 版 本 ) 等 : 

In [201]: from numpy.linalg import inv, qr 

In [202]: X = randn(5，5) 

In [203]: mat = X.T.dot(X) 


In [204]: inv(mat) 
Out[204]: 
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array([[ 3.0361, -0.1808, -0.6878, -2.8285, -1.1911], 

[-0.1808, 0.5035, 0.1215, 0.6702, 0.0956], 
-0.6878, 0.1215, 0.2904, 0.8081, 0.3049], 
[-2.8285, 0.6702, 0.8081, 3.4152, 1.1557], 
[-1.1911, 0.0956, 0.3049， 1.1557， 0.6051]]) 


In [205]: mat.dot(inv(mat)) 
Out[205]: 
array([[ 


oooor 


de 
1., -0. 
0. 1 
-0.，-0. 
0.， 0. 


orooo 
roooo 


， 0.，-0.]， 
，0.，0.]， 
，0.，0.]， 
， 1.，-0.]， 
，0.，1.]]) 
In [206]: q, r = qr(mat) 


In [207]: r 
out[207]: 
array([[ -6.9271， 7.389 ， 6.1227， -7.1163, -4.9215]， 
0.  ， -3.9735, -0.8671, 2.9747， -5.7402]， 
0. 3 ，-10.2681， 1.8909， 1.6079]， 
0. ss 5 ， -1.2996， 3.3577]， 
0. ， 0. ， 0. ， 0. ， 0.5571]]) 





表 4-7 中 列 出 了 一 些 最 常用 的 线性 代数 函数 。 





注意 : python 科学 计算 社区 脸 彰 着 有 朝 -日 能 实现 矩阵 乘法 的 中 组 运算 符 ， 以 便 能 用 -种 更 漂亮 
的 语法 代 赫 np.dot。 不 过 目前 就 只 能 先 这 样 了 。 





表 4-7: 常用 的 numpy.linalg 函 数 
函数 说 明 


diag 以 一 维 数组 的 形式 返回 方 阵 的 对 角 线 (或 非 对 角 线 ) 元 素 ， 或 将 一 维 数组 
转换 为 方 阵 ( 非 对 角 线 元 素 为 0) 


dot 矩阵 乘法 

trace 计算 对 角 线 元 素 的 和 

det 计算 矩阵 行列 式 

eig 计算 方 阵 的 本 征 值 和 本 征 向 量 

inv 计算 方 阵 的 逆 

pinv 计算 矩阵 的 Moore-Penrose 伪 逆 

计算 QR 分 解 

svd 计算 奇异 值 分 解 (SVD) 

solve 解 线性 方程 组 Ax = b， 其 中 A 为 一 个 方 阵 
lstsq 计算 Ax = b 的 最 小 二 乘 解 
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随机 数 生成 


numpy.random 模 块 对 Python 内 置 的 random 进 行 了 补充 ， 增 加 了 一 些 用 于 高 效 生 成 多 种 概 
率 分 布 的 样本 值 的 函数 。 例 如 ， 你 可 以 用 norma1l 来 得 到 一 个 标准 正 态 分 布 的 4 x 4 样本 
数组 : 


In [208]: samples = np.random.normal(size=(4, 4)) 


In [209]: samples 
Out[209]: 
array([[ 0.1241, 0.3026, 0.5238, 0.0009], 
1.3438, -0.7135, -0.8312, -2.3702], 
[-1.8608, -0.8608, 0.5601, -1.2659], 
0.1198, -1.0635, 0.3329, -2.3594]]) 


而 Python 内 置 的 random 模 块 则 只 能 一 次 生成 一 个 样本 值 。 从 下 面 的 测试 结果 中 可 以 看 
出 ， 如 果 需 要 产生 大 量 样本 值 ，numpy.random 快 了 不 止 一 个 数量 级 : 

In [210]: from random import normalvariate 

In [211]: N = 1000000 


In [212]: %timeit samples = [normalvariate(0, 1) for _ in xrange(N)] 


1 loops, best of 3: 1.33 s per loop 





In [213]: %timeit np.random.normal(size=N) 
10 loops, best of 3: 57.7 ms per loop 


表 4-8 列 出 了 numpy.random 中 的 部 分 函数 。 在 下 一 节 中 ， 我 将 给 出 一 些 利用 这 些 函 数 一 次 
性 生成 大 量 样本 值 的 范例 。 


表 4-8: 部 分 numpy.random 函 数 


函数 说 明 

seed 确定 随机 数 生成 器 的 种 子 

permutation ”返回 一 个 序列 的 随机 排列 或 返回 一 个 随机 排列 的 范围 

shuffle 对 一 个 序列 就 地 随机 排列 

rand 产生 均匀 分 布 的 样本 值 

randint 从 给 定 的 上 下 限 范围 内 随机 选取 整数 

randn 产生 正 态 分 布 (平均 值 为 0， 标 准 差 为 1) 的 样本 值 ， 类 似 于 MATLAB 接 口 
binomial 产生 二 项 分 布 的 样本 值 

normal 产生 正 态 (高 斯 ) 分 布 的 样本 值 

beta 产生 Beta 分 布 的 样本 值 
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表 4-8: 部 分 numpy.random 画 数 ( 续 ) 

函数 说 明 

chisquare 产生 卡 方 分 布 的 样本 值 

gamma 产生 Gamma 分 布 的 样本 值 
uniform 产生 在 [0, 1) 中 均匀 分 布 的 样本 值 


范例 : 随机 漫步 
我 们 通过 和 模拟 随机 漫步 来 说 明 如 何 运用 数组 运算 。 先 来 看 一 个 简单 的 随机 漫步 的 例子 ， 


从 0 开始 ， 步 长 1 和 一 1 出 现 的 概率 相等 。 我 们 通过 内 置 的 random 模 块 以 纯 Python 的 方式 实 
现 1000 步 的 随机 漫步 : 





import random 

position = 0 

walk = [position] 

steps = 1000 

for 1 in xrange(steps): 
step = 1 if random.randint(0, 1) else -1 
position += step 
walk.append(position) 


图 4-4 是 根据 前 100 个 随机 漫步 值 生成 的 折线 图 。 


[ 
Random walk with +1/-1 steps 





10| 


-10| 














0 20 40 60 80 ioo 
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图 4-4: 简单 的 随机 漫步 
不 难看 出 ， 这 其 实 就 是 随机 漫步 中 各 步 的 累计 和 ， 可 以 用 一 个 数组 运算 来 实现 。 因 此 ， 
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我 用 np.random 模 块 一 次 性 随机 产生 1000 个 “ 掷 硬币 ”结果 ( 即 两 个 数 中 任 选 一 个 ) ， 
将 其 分 别 设置 为 1 或 一 1， 然 后 计算 累计 和 : 


In [215]: nsteps = 1000 
In [216]: draws = np.random.randint(0, 2, size=nsteps) 
In [217]: steps = np.where(draws > 0, 1, -1) 
In [218]: walk = steps.cumsum() 
有 了 这 些 数据 之 后 ， 我 们 就 可 以 做 一 些 统计 工作 了 ， 比 如 求 取 最 大 值 和 最 小 值 : 
In [219]: walk.min() 
Out[219]: -3 


In [220]: walk.max() 
Out[220]: 31 


现在 来 看 一 个 复杂 点 的 统计 任务 一 一 首次 穿越 时 间 ， 即 随机 漫步 过 程 中 第 一 次 到 达 某 个 
特定 值 的 时 间 。 假 设 我 们 想 要 知道 本 次 随机 漫步 需要 多 久 才能 距离 初始 0 点 至 少 10 步 远 
( 任 一 方向 均 可 ) 。np.abs(walk) >= 10 可 以 得 到 一 个 布尔 型 数组 ， 它 表示 的 是 距离 是 
否 达到 或 超过 10， 而 我 们 想 要 知道 的 是 第 一 个 10 或 一 10 的 索引 。 可 以 用 argmax 来 解决 这 
个 问题 ， 它 返回 的 是 该 布尔 型 数组 第 一 个 最 大 值 的 索引 (True 就 是 最 大 值 ) : 


In [221]: (np.abs(walk) >= 10).argmax() 
Out[221]: 37 


注意 ， 这 里 使 用 argmax 并 不 是 很 高 效 ， 因 为 它 无 论 如 何 都 会 对 数组 进行 完全 扫描 。 在 本 
例 中 ， 只 要 发 现 了 一 个 True， 那 我 们 就 知道 它 是 个 最 大 值 了 。 


一 次 模拟 多 个 随机 漫步 
如 果 你 希望 模拟 多 个 随机 漫步 过 程 ( 比 如 5000 个 ) ， 只 需 对 上 面 的 代码 做 一 点 点 修改 即 
可 生成 所 有 的 随机 漫步 过 程 。 只 要 给 numpy.random 的 函数 传 入 一 个 二 元 元 组 就 可 以 产生 
一 个 二 维 数组 ， 然 后 我 们 就 可 以 一 次 性 计算 5000 个 随机 漫步 过 程 (一 行 一 个 ) 的 累计 
和 了 : 

In [222]: nwalks = 5000 

In [223]: nsteps = 1000 

In [224]: draws = np.random.randint(0, 2, size=(nwalks, nsteps)) # 0 或 1 

In [225]: steps = np.where(draws > 0, 1, -1) 


In [226]: walks = steps.cumsum(1) 
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In [227]: walks 





out[227] : 
array([[ 1, 0， 7, 8], 
1, 0 33， 32]， 
yy 5, 4]， 
[ 1 2， 26]， 
1， 2， 14]， 
[ -1, -2, -22]]) 





现在 ， 我 们 来 计算 所 有 随机 漫步 过 程 的 最 大 值 和 最 小 值 : 


In [228]: walks.max() 
Out[228]: 138 
In [229]: walks.min() 
Out[229]: -133 





得 到 这 些 数据 之 后 ， 我 们 来 计算 30 或 一 30 的 最 小 穿越 时 间 。 这 里 得 要 稍微 动 一 下 脑筋 ， 
因为 不 是 5000 个 过 程 都 到 达 了 30。 我 们 可 以 用 any 方 法 来 对 此 进行 检查 : 
In [230]: hits30 = (np.abs(walks) >= 30).any(1) 


In [231]: hits30 
Out[231]: array([False, True, False, ..., False, True, False], dtype=bool) 


In [232]: hits30.sum() # 到 达 30 或 30 的 数量 
Out[232]: 3410 


然后 我 们 利用 这 个 布尔 型 数组 选 出 那些 穿越 了 30 (绝对 值 ) 的 随机 漫步 ( 行 ) ， 并 调用 
argmax 在 轴 1 上 获取 穿越 时 间 ; 





In [233]: crossing times = (np.abs(walks[hits30]) >= 30).argmax(1) 








In [234]: crossing_times.mean() 
Out[234]: 498.88973607038122 


请 尝试 用 其 他 分 布 方式 得 到 漫步 数据 。 只 需 使 用 不 同 的 随机 数 生成 函数 即 可 ， 如 normal 
用 于 生成 指定 均值 和 标准 差 的 正 态 分 布 数据 : 


In [235]: steps = np.random.normal(loc=0, scale=0.25, 
ee size=(nwalks, nsteps)) 
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pandas 入 门 





pandas 是 本 书后 续 内 容 的 首选 库 。 它 含有 使 数据 分 析 工 作 变 得 更 快 更 简单 的 高 级 数据 结 
构 和 操作 工具 。pandas 是 基于 NumPy 构 建 的 ， 让 以 NumPy 为 中 心 的 应 用 变 得 更 加 简单 。 


先 介绍 一 点 背景 。 我 是 在 2008 年 早期 还 在 AQR (一 家 定量 投资 管理 公司 ) 任职 期 间 开 始 
着 手 构建 pandas 的 。 那 时 候 ， 没 有 任何 一 个 单独 的 工具 能 够 满足 我 工作 上 的 全 部 需求 ; 


。 ”具备 按 轴 自 动 或 显 式 数据 对 齐 功能 的 数据 结构 。 这 可 以 防止 许多 由 于 数据 未 对 齐 以 
及 来 自 不 同 数据 源 (索引 方式 不 同 ) 的 数据 而 导致 的 常见 错误 。 

。 ”集成 时 间 序列 功能 。 

。 。 既 能 处 理 时 间 序 列 数据 也 能 处 理 非 时 间 序列 数据 的 数据 结构 。 

。 ”数学 运算 和 约 简 (比如 对 某 个 轴 求 和 ) 可 以 根据 不 同 的 元 数据 ( 轴 编 号 ) 执行 。 

。 “灵活 处 理 缺失 数据 。 

。 ”合并 及 其 他 出 现在 常见 数据 库 〈 例 如 基于 SQL 的 ) 中 的 关系 型 运算 。 

我 希望 能 够 在 一 个 地 方 完成 所 有 这 些 事情 ， 最 好 是 一 种 能 进行 通用 软件 开发 的 语言 。 


Python 是 一 门 不 错 的 候选 语言 ， 但 那 时 候 它 还 没有 一 组 能 完全 提供 上 述 功能 的 数据 结构 
和 工具 。 


在 过 去 的 4 年 中 ，pandas 逐 渐 成 长 为 一 个 非常 大 的 库 ， 它 所 能 解决 的 数据 处 理 问题 已 经 比 
我 期 望 的 要 多 得 多 了 。 但 随 着 其 范围 的 扩大 ， 它 也 逐渐 背离 了 我 最 初 所 期 望 的 简洁 性 和 
易 用 性 。 我 希望 你 在 读 完 本 书 之 后 ， 也 能 像 我 一 样 认为 它 是 一 个 不 可 或 缺 的 工具 。 


在 本 书后 续 部 分 中 ， 我 将 使 用 下 面 这 样 的 pandas 引 入 约定 : 
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In [1]: from pandas import Series, DataFrame 
In [2]: import pandas as pd 


因此 ， 只 要 你 在 代码 中 看 到 pd.， 就 得 想到 这 是 pandas。 因 为 Series 和 DataFrame 用 的 次 数 
非常 多 ， 所 以 将 其 引入 本 地 命名 空间 中 会 更 方便 。 


pandas 的 数据 结构 介绍 


要 使 用 pandas， 你 首先 就 得 熟悉 它 的 两 个 主要 数据 结构 ，Series 和 DataFrame。 虽 然 它们 
并 不 能 解决 所 有 问题 ， 但 它们 为 大 多 数 应 用 提供 了 一 种 可 靠 的 、 易 于 使 用 的 基础 。 


Series 
Series 是 一 种 类 似 于 一 维 数组 的 对 象 ， 它 由 一 组 数据 (各 种 NumPy 数 据 类 型 ) 以 及 一 组 
与 之 相关 的 数据 标签 〈( 即 索引 ) 组 成 。 仅 由 一 组 数据 即 可 产生 最 简单 的 Series: 

In [4]: obj = Series([4，7，-5，3]) 

In [5]: obj 

out[5]: 

音源 

1 7 

2 

于。 洗 
Series 的 字符 串 表现 形式 为 : 索引 在 左边 ， 值 在 右边 。 由 于 我 们 没有 为 数据 指定 索引 ， 
于 是 会 自动 创建 一 个 0 到 N-1 (N 为 数据 的 长 度 ) 的 整数 型 索引 。 你 可 以 通过 Series 的 
values 和 index 属 性 获取 其 数组 表示 形式 和 索引 对 象 : 


In [6]: obj.values 
out[6]: array([ 4, 7, -5, 3]) 


In [7]: obj.index 
Out[7]: Int64Index([0，1，2，3]) 


通常 ， 我 们 希望 所 创建 的 Series 带 有 一 个 可 以 对 各 个 数据 点 进行 标记 的 索引 : 
In [8]: obj2 = Series([4，7，-5，3]，index=["d ‘b’, ‘a’, c]) 
In [9]: obj2 
Out[9]: 
d 4 


b 
| 号 
5 3 
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In [10]: obj2.index 
Out[10]: Index([d，b，a，c]，dtype=object) 


与 普通 NumPy 数 组 相 比 ， 你 可 以 通过 索引 的 方式 选取 Series 中 的 单个 或 一 组 值 ; 


In [11]: objz['a'] 
out[11]: -5 


In [12]: objz['d'] = 6 


In [13]: obj2[['c’, ‘a’, 'd']] 


Out[13]: 
c 3 
a -5 
d 6 


NumPy 数 组 运算 (如 根据 布尔 型 数组 进行 过 滤 、 标 量 乘法 、 应 用 数学 函数 等 ) 都 会 保留 


索引 和 值 之 间 的 链接 : 


In [14]: obj2 





Out[14]: 

d 6 

b 7 

a -5 

EC 3 

In [15]: objz[objz > 0] In [16]: obj2* 2 In [17]: np.exp(obj2) 

Out[15]: out[16]: out[17]: 

d 6 d 12 d 403.428793 

b 7 b 14 b 1096.633158 

于 本 a -10 a 0.006738 

5 6 c 20.085537 

还 可 以 将 Series 看 成 是 一 个 定 长 的 有 序 字 典 ， 因 为 它 是 索引 值 到 数据 值 的 一 个 映射 。 它 
可 以 用 在 许多 原本 需要 字典 参数 的 函数 中 : 

In [18]: 'b' in obj2 

Out[18]: True 

In [19]: 'e' in obj2 

Out[19]: False 
如 果 数 据 被 存放 在 一 个 Python 字 典 中 ， 也 可 以 直接 通过 这 个 字典 来 创建 Series: 

In [20]: sdata = {'Ohio': 35000, 'Texas': 71000, ‘Oregon’: 16000, "Utah' : 5000} 

In [21]: obj3 = Series(sdata) 

In [22]: obj3 

Out[22]: 

Ohio 35000 

Oregon 16000 
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Texas 71000 
Utah 5000 


如 果 只 传人 一 个 字典 ， 则 结果 Series 中 的 索引 就 是 原 字 典 的 键 (有 序 排列 ) 。 
In [23]: states = ['California', ‘Ohio', ‘Oregon', "Texas'] 
In [24]: obj4 = Series(sdata, index=states) 


In [25]: obj4 


Out[25]: 

California NaN 
Ohio 35000 
Oregon 16000 
Texas 71000 


在 这 个 例子 中 ，sdata 中 跟 states 索 引 相 匹 配 的 那 3 个 值 会 被 找 出 来 并 放 到 相应 的 位 置 上 ， 
但 由 于 “California” 所 对 应 的 sdata 值 找 不 到 ， 所 以 其 结果 就 为 NaN ( 即 “ 非 数字 ” 
(not a number) ， 在 pandas 中 ， 它 用 于 表示 缺失 或 NA 值 ) 。 我 将 使 用 缺失 (missing) 
或 NA 表示 缺失 数据 。pandas 的 isnull 和 notnull 函 数 可 用 于 检测 缺失 数据 : 


In [26]: pd.isnull(obj4) In [27]: pd.notnull(obj4) 
out[26]: out[27]: 

California True California False 

ohio False Ohio True 
Oregon False Oregon True 
Texas False Texas True 


Series 也 有 类 似 的 实例 方法 : 


In [28]: obj4.isnull() 


out[28] : 

California 。 True 
ohio False 
Oregon False 
Texas False 


我 将 在 本 章 详细 讲解 如 何 处 理 缺 失 数 据 。 


对 于 许多 应 用 而 言 ，Series 最 重要 的 一 个 功能 是 : 它 在 算术 运算 中 会 自动 对 齐 不 同 索引 
的 数据 。 


In [29]: obj3 In [30]: obj4 
out[29]: out[30]: 

Ohio 35000 California NaN 
Oregon 16000 Ohio 35000 
Texas 71000 Oregon 16000 
Utah 5000 Texas 71000 


In [31]: obj3 + obj4 
Out[31]: 
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California NaN 


Ohio 70000 
Oregon 32000 
Texas 142000 
Utah NaN 


数据 对 齐 功能 将 在 一 个 单独 的 主题 中 讲解 。 


Series 对 象 本 身 及 其 索引 都 有 一 个 name 属 性 ， 该 属性 跟 pandas 其 他 的 关键 功能 关系 非常 
密切 : 


In [32]: obj4.name =“population” 
In [33]: obj4.index.name = 'state' 


In [34]: obj4 


Out[34]: 
State 

California NaN 
Ohio 35000 
Oregon 16000 
Texas 71000 


Name: population 
Series 的 索引 可 以 通过 赋值 的 方式 就 地 修改 : 


In [35]: obj.index = ['Bob’, 'Steve', 'Jeff', 'Ryan'] 


In [36]: obj 

out[36]: 

Bob 4 

Steve 于 

Jeff -5 

Ryan 3 
DataFrame 


DataFrame 是 一 个 表格 型 的 数据 结构 ， 它 含有 一 组 有 序 的 列 ， 每 列 可 以 是 不 同 的 值 类 
型 (数值 、 字 符 串 、 布 尔 值 等 ) 。DataFrame 既 有 行 索引 也 有 列 索引 ， 它 可 以 被 看 做 
由 Series 组 成 的 字典 (共用 同一 个 索引 ) 。 跟 其 他 类 似 的 数据 结构 相 比 (如 R 的 data. 
frame) ，DataFrame 中 面向 行 和 面向 列 的 操作 基本 上 是 平衡 的 。 其 实 ，DataFrame 中 的 
数据 是 以 一 个 或 多 个 二 维 块 存放 的 (而 不 是 列表 、 字 典 或 别 的 一 维 数据 结构 ) 。 有 关 
DataFrame 内 部 的 技术 细节 远 远 超出 了 本 书 所 讨论 的 范围 。 





注意 ， 虽 然 DataFrame 是 以 二 维 结构 保存 数据 的 ， 但 你 仍然 可 以 轻松 地 将 其 表示 为 更 高 维度 的 数据 
(层次 化 索引 的 表格 型 结构 ， 这 是 pandas 中 许多 高 级 数据 处 理 功能 的 关键 要 素 ， 我 们 稍 后 
再 来 讨论 这 个 问题 ) 。 
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构建 DataFrame 的 办 法 有 很 多 ， 最 常用 的 一 种 是 直接 传人 一 个 由 等 长 列表 或 NumPy 数 组 
组 成 的 字典 : 


data = {'state': ['Ohio', 'Ohio’, ‘Ohio', 'Nevada’, 'Nevada’], 
"year': [2000, 2001, 2002, 2001, 2002], 
"pop': [1.5, 1.7, 3.6, 2.4, 2.9]} 

frame = DataFrame(data) 


结果 DataFrame 会 自动 加 上 索引 ( 跟 Series 一 样 ) ， 且 全 部 列 会 被 有 序 排列 : 


In [38]: frame 
Out[38]: 

pop state year 
1.5 Ohio 2000 
1.7 Ohio 2001 
6 Ohio 2002 
4 Nevada 2001 
9 Nevada 2002 


AunNpo 


如 果 指 定 了 列 序列 ， 则 DataFrame 的 列 就 会 按照 指定 顺序 进行 排列 : 


In [39]: Dataframe(data，columns=["year'，'state'，'"pop']) 


Out[39]: 

year state pop 
0 2000 Ohio 1.5 
1 2001 ohio 1.7 
2 2002 Ohio 3.6 
3 2001 Nevada 2.4 
4 2002 Nevada 2.9 


跟 Series 一 样 ， 如 果 传 人 的 列 在 数据 中 找 不 到 ， 就 会 产生 NA 值 ; 


In [40]: frame2 = DataFrame(data, columns=['year’, 'state’, "pop'， "debt']， 
wa index=['one’, 'two', 'three’, 'four', ‘five']) 


In [41]: frame2 
Out[41]: 

year state pop debt 
one 2000 Ohio 1.5 NaN 
two 2001 Ohio 1.7 NaN 
three 2002 Ohio 3.6 NaN 
four 2001 Nevada 2.4 NaN 
five 2002 Nevada 2.9 NaN 


In [42]: frame2.columns 
Out[42]: Index([year, state, pop, debt], dtype=object) 


通过 类 似 字典 标记 的 方式 或 属性 的 方式 ， 可 以 将 DataFrame 的 列 获取 为 一 个 Series: 


In [43]: frame2['state’] In [44]: frame2.year 
Out[43]: Out[44]: 
one Ohio one 2000 
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two ohio two 2001 


three Ohio three 2002 
four Nevada four 2001 
fve Nevada five 2002 
Name: state Nane: 。 year 


注意 ,返回 的 Series 拥 有 原 DataFrame 相 同 的 索引 ， 且 其 name 属 性 也 已 经 被 相应 地 设置 
好 了 。 行 也 可 以 通过 位 置 或 名 称 的 方式 进行 获取 ， 比 如 用 索引 字段 tx ( 稍 后 将 对 此 进行 
详细 讲解 ) : 


In [45]: frame2.ix['three’] 


Out[45]: 

year 。 2002 
state Ohio 
pop 3.6 
debt NaN 
Name: three 


列 可 以 通过 赋值 的 方式 进行 修改 。 例 如 ， 我 们 可 以 给 那个 空 的 “debt” 列 赋 上 一 个 标量 
值 或 一 组 值 : 


In [46]: frame2['debt'] = 16.5 


In [47]: frame2 
Out[47]: 

year state pop debt 
one 2000 Ohio 1.5 16.5 
two 2001 Ohio 1.7 16.5 
three 2002 Ohio 3.6 
four 2001 Nevada 2.4 16.5 
five 2002 Nevada 2.9 1 


In [48]: frame2['debt'] = np.arange(5.) 


In [49]: frame2 
Out[49]: 

year state pop debt 
one 2000 Ohio 1.5 
two 2001 Ohio 1 
three 2002 Ohio 3. 
four 2001 Nevada 2 
five 2002 Nevada 2 


将 列表 或 数组 赋值 给 某 个 列 时 ， 其 长 度 必 须 跟 DataFrame 的 长 度 相 匹配 。 如 果 赋 值 的 是 
一 个 Series， 就 会 精确 匹配 DataFrame 的 索引 ， 所 有 的 空位 都 将 被 填 上 缺失 值 : 

In [50]: val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five']) 

In [51]: frame2['debt’] = val 


In [52]: frame2 
Out[52]: 
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year state pop debt 
one 2000 Ohio 1.5 NaN 
two 2001 Ohio 1.7 -1.2 
three 2002 Ohio 3.6 NaN 
four 2001 Nevada 2.4 -1.5 
five 2002 Nevada 2.9 -1.7 


为 不 存在 的 列 赋 值 会 创建 出 一 个 新 列 。 关 键 字 del 用 于 删除 列 : 


In [53]: frame2['eastern'] = frame2.state == 'Ohio’ 
In [54]: frame2 
Out[54]: 
year state pop debt eastern 
one 2000 ohio 1.5 NaN True 
two 2001 Ohio 1.7 -1.2 True 
three 2002 Ohio 3.6 NaN True 
four 2001 Nevada 2.4 -1.5 False 
five 2002 Nevada 2.9 -1.7 False 


In [55]: del frame2['eastern'] 


In [56]: frame2.columns 
Out[56]: Index([year, state, pop, debt], dtype=object) 





警告 : 通过 索引 方式 返回 的 列 只 是 相应 数据 的 视图 而 已 ， 并 不 是 副本 。 因 此 ， 对 返回 的 Series 所 做 
的 任何 就 地 修改 全 都 会 反映 到 源 DataFrame 上 。 通 过 Series 的 copy 方 法 即 可 显 式 地 复制 列 。 





另 一 种 常见 的 数据 形式 是 嵌 套 字典 (也 就 是 字典 的 字典 ) ; 


In [57]: pop = {'Nevada': {2001: 2.4，2002: 2.9}, 
"Ohio’: {2000: 1.5，2001: 1.7, 2002: 3.6}} 





如 果 将 它 传 给 DataFrame， 它 就 会 被 解释 为 ， 外 层 字典 的 键 作为 列 ， 内 层 键 则 作为 行 
索引 : 


In [58]: frame3 = DataFrane(pop) 


In [59]: frame3 


Out[59]: 

Nevada Ohio 
2000 NaN 1.5 
2001 2.4 1.7 


2002 2.9 3.6 
当然 ， 你 也 可 以 对 该 结果 进行 转 置 : 


In [60]: frame3.T 
Out[60]: 
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2000 2001 2002 
Nevada NaN 2.4 2.9 
Ohio 1.5 1.7 3.6 


内 层 字典 的 键 会 被 合并 、 排 序 以 形成 最 终 的 索引 。 如 果 显 式 指定 了 索引 ， 则 不 会 这 样 : 


In [61]: DataFrame(pop，index=[2001，2002，2003]) 


out[61]: 

Nevada Ohio 
2001 2.4 1.7 
2002 2.9 3.6 
2003 NaN NaN 


由 Series 组 成 的 字典 差不多 也 是 一 样 的 用 法 : 


In [62]: pdata = {'Ohio': frame3['Ohio’][:-1], 
pe "Nevada': frame3['Nevada' ][:2]} 


In [63]: DataFrame(pdata) 
out[63] : 
Nevada ohio 
2000 NaN 1.5 
2001 2.4 1.7 


表 5-1 列 出 了 DataFrame 构 造 函 数 所 能 接受 的 各 种 数据 。 


表 5-1: 可 以 输入 给 DataFrame 构 造 器 的 数据 


类 型 
二 维 ndarray 
由 数组 、 列 表 或 元 组 组 成 的 字典 


NumpPy 的 结构 化 /记录 数组 
由 Series 组 成 的 字典 


由 字典 组 成 的 字典 


字典 或 Series 的 列表 


由 列表 或 元 组 组 成 的 列表 


另 一 个 DataFrame 


NumpPy 的 MaskedArray 


说 明 

数据 矩阵 ， 还 可 以 传 入 行 标 和 列 标 

每 个 序列 会 变 成 DataFrame 的 一 列 。 所 有 序列 的 长 度 
必须 相同 

类 似 于 “由 数组 组 成 的 字典 ” 


每 个 Series 会 成 为 一 列 。 如 果 没有 显 式 指定 索引 ， 则 
各 Series 的 索引 会 被 合并 成 结果 的 行 索引 

各 内 层 字典 会 成 为 一 列 。 键 会 被 合并 成 结果 的 行 索 
引 ， 跟 “由 Series 组 成 的 字典 ”的 情况 一 样 


各 项 将 会 成 为 DataFrame 的 一 行 。 字 典 键 或 Series 索 引 
的 并 集 将 会 成 为 DataFrame 的 列 标 


类 似 于 “二 维 ndarray” 

该 DataFrame 的 索引 将 会 被 沿用 ， 除 非 显 式 指定 了 其 
他 索引 

类 似 于 “二 维 ndarray” 的 情况 ， 只 是 掩 码 值 在 结果 
DataFrame 会 变 成 NA/ 缺 失 值 
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如 果 设 置 了 DataFrame 的 index 和 columns 的 name 属 性 ， 则 这 些 信息 也 会 被 显示 出 来 ; 


In [64]: frame3.index.name = 'year'; frame3.columns.name =“state" 


In [65]: frame3 


Out[65]: 


state Nevada Ohio 


year 


跟 Series 一 样 ，values 属 性 也 会 以 二 维 ndarray 的 形式 返回 DataFrame 中 的 数据 : 


In [66]: 
Out[66]: 
array([[ nan, 1.5] 
【254 和 7 
[ 2.9，3.6] 


frame3 .values 


]) 


如 果 DataFrame 各 列 的 数据 类 型 不 同 ， 则 值 数组 的 数据 类 型 就 会 选用 能 兼容 所 有 列 的 数 


据 类 型 ， 


In [67]: 
Out[67]: 


frame2.values 


array([[2000, Ohio, 1.5, nan], 


[2001, Ohio, 1.7, -1.2], 

[2002, Ohio, 3.6, nan], 

[2001, Nevada, 2.4, -1.5], 

[2002, Nevada, 2.9, -1.7]], dtype=object) 


索引 对 象 


pandas 的 索引 对 象 负责 管理 轴 标签 和 其 他 元 数据 (比如 轴 名 称 等 ) 。 构 建 Series 或 
DataFrame 时 ， 所 用 到 的 任何 数组 或 其 他 序列 的 标签 都 会 被 转换 成 一 个 Index， 


In [68]: 
In [69]: 


In [70]: 
Out[70]: 


In [71]: 
out[71] : 


obj = Series(range(3)，index=['a'，'b'，'c']) 
index = obj.index 


index 
Index([a, b, c], dtype=object) 


index[1:] 
Index([b, c], dtype=object) 


Index 对 象 是 不 可 修改 的 (immutable) ， 因 此 用 户 不 能 对 其 进行 修改 : 








Exception Traceback (most recent call last) 
<ipython-input-72-676fdeb26a68> in <module>() 
----》1 index[1] = 'd" 


/Users/wesm/code/pandas/pandas/core/index.pyc in _setitem (self, key, value) 
302 def setitem (self, key, value): 


303 ™"Disable the setting of values.""" 
-~-> 304 raise Exception(str(self._class_) + ' object is inmutable') 
305 


306 def _getitem (self, key): 
Exception: <class "pandas.core.index.Index'》object is inmutable 
不 可 修改 性 非常 重要 ， 因 为 这 样 才能 使 Index 对 象 在 多 个 数据 结构 之 间 安全 共享 : 
In [73]: index = pd.Index(np.arange(3)) 
In [74]: obj2 = Series([1.5, -2.5, 0], index=index) 


In [75]: obj2.index is index 
Out[75]: True 


表 5-2 列 出 了 pandas 库 中 内 置 的 Index 类 。 由 于 开发 人 员 的 不 项 努力 ，Index 甚 至 可 以 被 继 
承 从 而 实现 特别 的 轴 索 引 功能 。 





注意 ， 虽 然 大 部 分 用 户 都 不 需要 知道 大 多 关于 Index 对 象 的 细节 ， 但 它们 确实 是 pandas 数 据 模型 的 
重要 组 成 部 分 。 





表 5-2: pandas 中 主要 的 Index 对 象 


类 说 明 
Index 最 泛 化 的 Index 对 象 ， 将 轴 标签 表示 为 一 个 由 Python 对 象 组 成 的 NumpPy 
数组 


Int64Index 针对 整数 的 特殊 Index 

Multilndex “层次 化 ”索引 对 象 ， 表 示 单 个 轴 上 的 多 层 索 引 。 可 以 看 做 由 元 组 组 
成 的 数组 

Datetimelndex “存储 纳 秒 级 时 间 戳 (用 NumpPy 的 datetime64 类 型 表示 ) 

Periodlndex 针对 Period 数 据 (时 间 间 隔 ) 的 特殊 Index 





除了 长 得 像 数 组 ，Index 的 功能 也 类 似 一 个 固定 大 小 的 集合 : 


In [76]: frame3 


out[76] : 

state Nevada Ohio 
year 

2000 NaN 1.5 
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2001 2.4 1.7 

2002 2.9 3.6 

In [77]: 'Ohio' in frame3.columns 
out[77]: True 


In [78]: 2003 in frame3.index 
Out[78]: False 


每 个 索引 都 有 一 些 方法 和 属性 ， 它 们 可 用 于 设置 逻辑 并 回答 有 关 该 索引 所 包含 的 数据 的 
常见 问题 。 表 5-3 列 出 了 这 些 函 数 。 


表 5-3: Index 的 方法 和 属性 


方法 说 明 

append 连接 另 一 个 Index 对 象 ， 产 生 一 个 新 的 Index 

diff 计算 差 集 ， 并 得 到 一 个 Index 

intersection 计算 交集 

union 计算 并 集 

isin 计算 一 个 指示 各 值 是 否 都 包含 在 参数 集合 中 的 布尔 型 数组 
delete 删除 索引 i 处 的 元 素 ， 并 得 到 新 的 Index 

drop 删除 传 入 的 值 ， 并 得 到 新 的 Index 

insert 将 元 素 插入 到 索引 ji 处， 并 得 到 新 的 Index 


is_monotonic ” 当 各 元 素 均 大 于 等 于 前 一 个 元 素 时 ， 返 回 True 
is_unique 当 Index 没 有 重复 值 时， 返回 True 
unique 计算 Index 中 唯一 值 的 数组 


基本 功能 


本 节 中 ， 我 将 介绍 操作 Series 和 DataFrame 中 的 数据 的 基本 手段 。 后 续 章 节 将 更 加 深入 地 
挖掘 pandas 在 数据 分 析 和 处 理 方面 的 功能 。 本 书 不 是 pandas 库 的 详尽 文档 ， 主 要 关注 的 
是 最 重要 的 功能 ， 那 些 不 大 常用 的 内 容 (也 就 是 那些 更 深奥 的 内 容 ) 就 交 给 你 自己 去 摸 
索 吧 。 


重新 索引 


pandas 对 象 的 一 个 重要 方法 是 reindex， 其 作用 是 创建 一 个 适应 新 索引 的 新 对 象 。 以 之 前 
的 一 个 简单 示例 来 说 : 





In [79]: obj = Series([4.5, 7.2, -5.3, 3.6], index=['d’, 'b’, ‘a’, 'c’]) 
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In [80]: obj 


out[8o] : 
d 4.5 
b 7.2 
a -5.3 
c 3.6 


调用 该 Series 的 reindex 将 会 根据 新 索引 进行 重 排 。 如 果 某 个 索引 值 当前 不 存在 ， 就 引入 
缺失 值 : 


In [81]: obj2 = obj.reindex(['a’, 'b’, 'c', 'd', 'e’]) 


In [82]: obj2 


Out[82]: 
a -5.3 
b 72 
c 3.6 
d 4.5 
e NaN 
In [83]: obj.reindex(['a’, 'b’, 'c’, 'd'’, ‘e’], fill_value=0) 
Out[83]: 
a -5.3 
b 7.2 
5 3.6 
d 4.5 
e 0.0 


对 于 时 间 序 列 这 样 的 有 序数 据 ， 重 新 索引 时 可 能 需要 做 一 些 插值 处 理 。method 选 项 即 可 
达到 此 目的 ， 例 如 ， 使 用 ff11 可 以 实现 前 向 值 填充 ， 


In [84]: obj3 = Series(['blue'，'purple'，'yellow']，index=[o，2，4]) 


In [85]: obj3.reindex(range(6), method="ffill’) 


Out[85]: 

0 blue 
和 blue 
2 purple 
3 purple 
4 yellow 
5 yellow 


表 5-4 列 出 了 可 用 的 method 选 项 。 其 实 我 们 有 时 需要 比 前 向 和 后 向 填充 更 为 精准 的 插值 
方式 。 

表 5-4: reindex 的 (插值 ) method 选 项 

参数 说 明 

ffill 或 pad 前 向 填充 (或 搬运 ) 值 

bfill 或 backfill 后 向 填充 (或 搬运 ) 值 
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对 于 DataFrame，reindex 可 以 修改 ( 行 ) 索引 、 列 ， 或 两 个 都 修改 。 如 果 仅 传人 一 个 序 
列 ， 则 会 重新 索引 行 : 


In [86]: frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a’, ‘c’, 'd'], 
et columns=[ "Ohio', 'Texas’, 'California’]) 


In [87]: frame 


Out[87]: 

Ohio Texas California 
a 0 1 2 
下 和 4 5 
d 6 7 8 


In [88]: frane2 = frame.reindex(['a’, ‘b', 'c', 'd']) 


In [89]: frame2 


Out[89]: 

Ohio Texas California 
a 0 1 2 
b NaN NaN NaN 
区 4 5 
d 6 7 8 


使 用 columns 关 键 字 即 可 重新 索引 列 : 
In [90]: states = ['Texas'，'Utah'，'California'] 


In [91]: frame.reindex(columns=states) 


Out[91]: 

Texas Utah California 
a 1 NaN 2 
< 4 NaN 5 
d 7 NaN 8 


也 可 以 同时 对 行 和 列 进行 重新 索引 ， 而 插值 则 只 能 按 行 应 用 ( 即 轴 0) : 


In [92]: frane.reindex(index=['a’, ‘b’, 'c’, 'd'], method="ffill’, 
i : columns=states) 


Out[92]: 

Texas Utah California 
a 1 NaN 当 
b 1 NaN 2 
c 4 NaN 5 
d 7 NaN 8 


利用 ix 的 标签 索引 功能 ， 重 新 索引 任务 可 以 变 得 更 简洁 : 


In [93]: frane.ix[['a’, 'b', 'c', 'd'], states] 


Out[93]: 

Texas Utah California 
a 总 NaN 车 
b NaN NaN NaN 
c 4 NaN 5 
d 7 NaN 8 





表 5-5 列 出 了 reindex 函 数 的 各 参数 及 说 明 。 


表 5-5: reindex 函 数 的 参数 
参数 说 明 


index 用 作 索 引 的 新 序列 。 既 可 以 是 Index 实 例 ， 也 可 以 是 其 他 序列 型 的 Python 数 


据 结构 。Index 会 被 完全 使 用 ， 就 像 没 有 任何 复制 一 样 
method ”插值 (填充 ) 方式 ， 具 体 参 数 请 参见 表 5-4 
fill_value ”在 重新 索引 的 过 程 中 ， 需 要 引入 缺失 值 时 使 用 的 替代 值 
limit 前 向 或 后 向 填充 时 的 最 大 填充 量 
level 在 Multilndex 的 指定 级 别 上 匹配 简单 索引 ， 否 则 选取 其 子 集 
copy 默认 为 True， 无 论 如 何 都 复制 ， 如 果 为 False， 则 新 旧 相等 就 不 复制 





丢弃 指定 轴 上 的 项 


丢弃 某 条 轴 上 的 一 个 或 多 个 项 很 简单 ， 只 要 有 一 个 索引 数组 或 列表 即 可 。 由 于 需要 执 
行 一 些 数据 整理 和 集合 逻辑 ， 所 以 drop 方 法 返回 的 是 一 个 在 指定 轴 上 删除 了 指定 值 的 新 


对 象 : 
In [94]: obj = Series(np.arange(5.), index=['a’, 'b', 'c', 'd', 'e']) 
In [95]: new obj = obj.drop('c') 


In [96]: new_obj 


out[96] : 

a 0 

b 1 

Ci 

e 4 

In [97]: obj.drop(['d’, 'c']) 
Out[97]: 

a 0 

b 1 

e 4 


对 于 DataFrame， 可 以 删除 任意 轴 上 的 索引 值 : 


In [98]; data = DataFrame(np.arange(16).reshape((4，4))， 
index=[ "Ohio", 'Colorado’ , "Utah’ , ‘New York']， 
columns=[ ‘one’, 'two', ‘three’, ‘four']) 





In [99]: data.drop(['Colorado', ‘Ohio’]) 


Out[99]: 

one two three four 
Utah 8 4 10 11 
New York 12 13 14 15 
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In [100]: data.drop('two', axis=1) 。 In [101]: data.drop(['two', 'four'], axis=1) 


Out[100]: Out[101]: 

one three four one three 
Ohio 0 2 3 ohio 0 2 
Colorado 4 6 7 Colorado 4 6 
Utah 8 10 11 Utah 8 10 
New York 12 14 15 New York 12 14 


索引 、 选 取 和 过 滤 
Series 索 引 (obj[...]) 的 工作 方式 类 似 于 NumPy 数 组 的 索引 ， 只 不 过 Series 的 索引 值 不 
只 是 整数 。 下 面 是 几 个 例子 : 


In [102]: obj = Series(np.arange(4.)，index=['a'，'b'，'c'，'d]) 


In [103]: obj['b'] In [104]: obj[1] 
Out[103]: 1.0 Out[104]: 1.0 
In [105]: obj[2:4] In [106]: obj[['b', ‘a', 'd']] 
Out[105]: Out[106]: 
< 2 b 1 
d 3 a 0 
d 3 
In [107]: obj[[1, 3]] In [108]: obj[obj < 2] 
Out[107]: Out[108]: 
b 二 a 0 
d 3 b 1 


利用 标签 的 切片 运算 与 普通 的 Python 切片 运算 不 同 ， 其 末端 是 包含 的 (inclusive) 证 ， 
In [109]: obj['b':'e'] 
OQut[109]: 


b 1 
人 浊 


设置 的 方式 也 很 简单 : 


In [110]: obj['b':'c'] = 5 








In [111]: obj 


Out[111] : 
a 0 
b 5 
€ 3 
d 3 


如 你 所 见 ， 对 DataFrame 进 行 索引 其 实 就 是 获取 一 个 或 多 个 列 : 


译注 1: 即 封闭 区 间 。 
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In [112]: data = DataFrane(np.arange(16).reshape((4, 4)), 
: index=[ Ohio’, *Colorado’ ，"Utah'，'New York']， 
vd colunns=[ "one’, 'two', 'three’, ‘four’]) 








In [113]: data 


Out[113]: 

one two three four 
Ohio 0 1 时 3 
Colorado 4 5 6 7 
Utah 8 9 10 11 
New York 12 13 14 15 
In [114]: data['two'] In [115]: data[['three’, ‘one’]] 
out[114] : out[115] : 
Ohio 1 three one 
Colorado 5 Ohio 2 0 
Utah 9 Colorado 6 4 
New York 13 Utah 10 8 
Name: two New York 14 12 


这 种 索引 方式 有 几 个 特殊 的 情况 。 首 先 通过 切片 或 布尔 型 数组 选取 行 : 


In [116]: data[:2] In [117]: data[data['three’] > 5] 
Out[116]: Out[117]: 

one two three four one two three four 
Ohio 币 入 2 3 Colorado 4 5 6 7 
Colorado 4 5 6 7 Utah 8 9 10 11 


New York 12 13 14 15 


有 些 读者 可 能 会 认为 这 不 太 合乎 逻辑 ， 但 这 种 语法 的 的 确 确 来 源 于 实践 。 另 一 种 用 法 是 
通过 布尔 型 DataFrame (比如 下 面 这 个 由 标量 比较 运算 得 出 的 ) 进行 索引 : 


In [118]: data < 5 


Out[118]: 

one two three four 
Ohio True True True True 
Colorado True False False False 
Utah False False False False 


New York False False False False 
In [119]: data[data < 5] = 0 


In [120]: data 


Out[120]: 

one two three four 
Ohio 0 0 0 0 
Colorado 0 5 6 7 
Utah 8 9 10 11 
New York 12 13 14 15 


这 段 代 码 的 目的 是 使 DataFrame 在 语法 上 更 像 ndarray。 
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为 了 在 DataFrame 的 行 上 进行 标签 索引 ， 我 引入 了 专门 的 索引 字段 ix。 它 使 你 可 以 通过 
NumPy 式 的 标记 法 以 及 轴 标 签 从 DataFrame 中 选取 行 和 列 的 子 集 。 之 前 曾 提 到 过 ， 这 也 
是 一 种 重新 索引 的 简单 手段 : 


In [121]: data.ix['Colorado', ['two', 'three’]] 


Out[121]: 
two 5 
three 6 


Name: Colorado 


In [122]: data.ix[['Colorado', ‘Utah'], [3, 0, 1]] 
Out[122]: 
four one two 
Colorado 7 0 5 
Utah 11 8 9 


In [123]: data.ix[2] In [124]: data.ix[:'Utah’, ‘two'] 
Out[123]: Out[124]: 

one 8 Ohio 0 

two 9 Colorado 5 

three 10 Utah 9 

four 11 Name: two 

Name: Utah 


In [125]: data.ix[data.three > 5, :3] 
Out[125]: 
one two three 
Colorado 0 5 6 
Utah 8 9 10 
New York 12 13 14 


也 就 是 说 ， 对 pandas 对 象 中 的 数据 的 选取 和 重 排 方式 有 很 多 。 表 5-6 简 单 总 结 了 针对 

DataFrame 数 据 的 大 部 分 选取 和 重 排 方式 。 在 使 用 层次 化 索引 时 还 能 用 到 一 些 别 的 办 法 

( 稍 后 就 会 讲 到 ) 。 

注意 ， 在 设计 pandas 时 ， 我 觉得 必须 输入 frame[:, col] 才 能 选取 列 实在 有 些 哆 嗪 (而且 还 很 容易 出 
错 ) ， 因 为 列 的 选取 是 一 种 最 常见 的 操作 。 于 是 ， 我 就 把 所 有 的 标签 索引 功能 都 放 到 ix 中 
和 








表 5-6: DataFrame 的 索引 选项 
类 型 说 明 


obj[val 选取 DataFrame 的 单个 列 或 一 组 列 。 在 一 些 特殊 情况 下 会 
比较 便利 : 布尔 型 数组 (过 滤 行 ) 、 切 片 ( 行 切片 ) 、 布 
尔 型 DataFrame (根据 条 件 设置 值 ) 

obj.ix[val] 选取 DataFrame 的 单个 行 或 一 组 行 








表 5-6: DataFrame 的 索引 选项 ( 续 ) 


类 型 说 明 

obj.ix[:, val] 选取 单个 列 或 列子 集 

obj.ix[val1, val2] 同时 选取 行 和 列 

reindex 方 法 将 一 个 或 多 个 轴 匹 配 到 新 索引 

xs 方 法 根据 标签 选取 单行 或 单列 ， 并 返回 一 个 Series 
icol、irow 方 法 根据 整数 位 置 选取 单列 或 单行 ， 并 返回 一 个 Series 


get_value、set_value 方 法 ”根据 行 标签 和 列 标签 选取 单个 值 。 于 让 > 


算术 运算 和 数据 对 齐 
pandas 最 重要 的 一 个 功能 是 ， 它 可 以 对 不 同 索引 的 对 象 进行 算术 运算 。 在 将 对 象 相 加 时 ， 
如 果 存 在 不 同 的 索引 对 ， 则 结果 的 索引 就 是 该 索引 对 的 并 集 。 我 们 来 看 一 个 简单 的 例子 ; 





In [126]: s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a’, ‘c', 'd'’, 'e’]) 


In [127]: 5s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a’, 'c', 'e’, 'f', 'g']) 


In [128]: s1 In [129]: s2 

Out[128]: Out[129]: 

a 7.3 a -2.1 

Cc -2.5 < 3.6 

d 3.4 e -1.5 

e 1.5 f 4.0 

g 3.1 

将 它们 相 加 就 会 产生 : 

In [130]: si + s2 

Out[130]: 

a 5.2 

[3 1.1 

d NaN 

e 0.0 

f NaN 

8 NaN 


自动 的 数据 对 齐 操作 在 不 重 得 的 索引 处 引入 了 NA 值 兰 让。 缺失 值 会 在 算术 运算 过 程 中 

传播 。 

译注 2: get_value 方 法 是 选取 ，set-value 方 法 是 设置 。 

译注 3: 由 于 本 书 中 多 次 出 现 “ 非 重 登 ” (overlapping) 这 个 词 ， 所 以 需要 简单 说 明 一 下 。 例 如 ， 
“飞机 场 ” 跟 “拖拉 机 ”都 有 个 “机 ”， 于 是 可 以 认为 这 两 个 字符 事 是 “重合 ”的 ; “高 
富 帅 ”和 “ 妖 穷 挫 ” 的 情况 自然 就 是 “ 非 重 合 ” 了 。 注 意 ， 虽 然 这 里 没有 任何 顺序 和 连续 
的 概念 ， 但 有 些 地 方 是 需要 考虑 顺序 和 连续 的 。 
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对 于 DataFrame， 对 齐 操作 会 同时 发 生 在 行 和 列 上 : 


In [131]: df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd"), 
人 index=["ohio"，'"Texas'，"Colorado']) 


In [132]: df2 = DataFrame(np.arange(12.).reshape((4，3))，columns=list('bde')， 
va index=[ "Utah' , ‘Ohio', 'Texas', 'Oregon’]) 


In [133]: df1 In [134]: df2 
Out[133]: Out[134]: 
bc d b d e 
Ohio 012 Utah 0 1 2 
Texas 3 45 Ohio 3 4 5 
Colorado 6 7 8 Texas 6 7 8 
Oregon 9 10 11 


把 它们 相 加 后 将 会 返回 一 个 新 的 DataFrame， 其 索引 和 列 为 原来 那 两 个 DataFrame 的 
并 集 : 


In [135]: dfl + df2 
Out[135]: 

b cd e 
Colorado NaN NaN NaN NaN 
Ohio 3 NaN 6 NaN 
Oregon = NaN NaN NaN NaN 
Texas 9 NaN 12 NaN 
Utah NaN NaN NaN NaN 


在 算术 方法 中 填充 值 
在 对 不 同 索 引 的 对 象 进行 算术 运算 时 ， 你 可 能 希望 当 一 个 对 象 中 某 个 轴 标 签 在 另 一 个 对 
象 中 找 不 到 时 填充 一 个 特殊 值 (比如 0) : 

In [136]: df1 = DataFrame(np.arange(12.).reshape((3，4))，columns=list("abcd')) 


In [137]: df2 = DataFrame(np.arange(20.).reshape((4，5))，columns=list('abcde')) 


In [138]: df1i In [139]: df2 
Out[138]: Out[139]: 

[和 二) abc de 
001 2 3 0 0 1 2 3 4 
和 放生 6 .| 
2 8 9 10 11 2 10 11 12 13 14 

3 15 16 17 18 19 


将 它们 相 加 时 ， 没 有 重 登 的 位 置 就 会 产生 NA 值 : 


In [140]: df1 + df2 
out[140]: 





1 9 11 13 15 NaN 
2 18 20 22 24 NaN 
3 NaN NaN NaN NaN NaN 


使 用 df1 的 add 方 法 ， 传 人 df2 以 及 一 个 们 1_value 参 数 : 


In [141]: df1i.add(df2, fill_value=0) 
Out[141]: 


18 20 22 24 14 


0 
1 9 33 33135 和 9 
2 
3 15 16 17 18 19 


与 此 类 似 ， 在 对 Series 或 DataFrame 重 新 索引 时 ， 也 可 以 指定 一 个 填充 值 : 


In [142]: df1.reindex(columns=df2.columns, fill_value=0) 


Out[142]: 

ab c de 
二 : 泛 2 和 
145 6 70 
28910 110 


表 5-7: 灵活 的 算术 方法 

方法 ”说明 

add ”用 于 加 法 (+) 的 方法 
sub ”用 于 减法 (一 ) 的 方法 
div 用 于 除法 (/) 的 方法 
mul 。 用 于 乘法 (") 的 方法 





DataFrame 和 Series 之 间 的 运算 
跟 NumPy 数 组 一 样 ，DataFrame 和 Series 之 间 算术 运算 也 是 有 明确 规定 的 。 先 来 看 一 个 具 
有 启发 性 的 例子 ， 计 算 一 个 二 维 数组 与 其 某 行 之 间 的 差 : 

In [143]: arr = np.arange(12.).reshape((3, 4)) 


In [144]: arr 


Out[144]: 

array([[ 0.， 1., 2., 3.]， 
[ 4., 5., 6., 7.]， 
[ 8., 9., 10.,11.]]) 


In [145]: arr[0] 
Out[145]: array([ 0.，1.，2.，3.]) 


In [146]: arr - arr[0] 
Out[146] : 
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array([[ 0., 0., 0., 0.] 
Ly Ws dey el 
| 


这 就 叫做 广播 (broadcasting) ,第 12 章 将 对 此 进行 详细 讲解 。DataFrame 和 Series 之 间 的 
运算 差不多 也 是 如 此 : 


In [147]: frame = DataFrame(np.arange(12.).reshape((4，3))，columns=list('bde')， 
A index=[ "Utah’ ,'Ohio’ ,'Texas’ , ‘Oregon']) 


In [148]: series = frame.ix[0] 


In [149]: frame In [150]: series 
Out[149]: Out[150]: 

bd e b 0 
Utah 0 1 2 d 1 
Ohio 3 4 5 e 2 
Texas 6 7 8 Name: Utah 
Oregon 9 10 11 


默认 情况 下 ，DataFrame 和 Series 之 间 的 算术 运算 会 将 Series 的 索引 匹配 到 DataFrame 的 
列 ， 然 后 沿 着 行 一 直 向 下 广播 : 


In [151]: frame - series 
Out[151]: 


b 
Utah 0 
Ohio 3 
Texas 6 

9 


d 
0 
3 
6 
Oregon 9 9 


wawon 


如 果 某 个 索引 值 在 DataFrame 的 列 或 Series 的 索引 中 找 不 到 ， 则 参与 运算 的 两 个 对 象 就 会 
被 重新 索引 以 形成 并 集 : 


In [152]: series2 = Series(range(3), index=['b', ‘e’, 'f']) 


In [153]: frame + series2 
Out[153]: 

bd e f 
Utah ONaN 3 NaN 
Ohio 3 NaN 6NaN 
Texas 6NaN 9 NaN 
Oregon 9 NaN 12 NaN 


如 果 你 希望 匹配 行 且 在 列 上 广播 ， 则 必须 使 用 算术 运算 方法 。 例 如 : 
In [154]: series3 = frame['d'] 


In [155]: frame In [156]: series3 
Out[155]: Out[156]: 
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b d e Utah 1 
Utah | 二， 党 Ohio 4 
Ohio 党 者 入 Texas TF 
Texas 6 7 8 oregon 10 
Oregon 9 10 11 Name: d 


In [157]: frame.sub(series3, axis=0) 


Out[157]: 
bde 
Utah -1 0 1 
ohio -1 0 1 
Texas -1 0 1 
Oregon -1 0 1 


传人 的 轴 号 就 是 希望 匹配 的 轴 。 在 本 例 中 ， 我 们 的 目的 是 匹配 DataFrame 的 行 索 引 并 进 
行 广播 。 呈 六 


函数 应 用 和 了 映射 


NumPy 的 ufuncs (元 素 级 数组 方法 ) 也 可 用 于 操作 pandas 对 象 : 


In [158]: frame = DataFrame(np.random.randn(4，3)，columns=list('bde')， 
wnt index=[ "Utah’ , ‘Ohio' , 'Texas', ‘Oregon']) 


In [159]: frame In [160]: np.abs(frame) 
Out[159]: out[160]: 

b d e b d e 
Utah -0.204708 0.478943 -0.519439 Utah 。 0.204708 0.478943 0.519439 
Ohio -0.555730 1.965781 1.393406 Ohio 0.555730 1.965781 1.393406 
Texas 0.092908 0.281746 0.769023 Texas 0.092908 0.281746 0.769023 
Oregon 1.246435 1.007189 -1.296221 Oregon 1.246435 1.007189 1.296221 


另 一 个 常见 的 操作 是 ， 将 函数 应 用 到 由 各 列 或 行 所 形成 的 一 维 数组 上 。DataFrame 的 
apply 方 法 即 可 实现 此 功能 : 


In [161]: f = lambda x: x.max() - x.min() 


In [162]: frame.apply(f) In [163]: frame.apply(f, axis=1) 
Out[162]: Out[163]: 

b 1.802165 Utah 0.998382 

d 1.684034 Ohio 2.521511 

e 2.689627 Texas 0.676115 


Oregon 2.542656 





这 里 需要 补充 说 明 一 下 ， 作 者 反复 强调 “广播 ”会 在 第 12 章 介绍 ， 所 以 如 果真 看 不 懂 这 里 
就 等 到 12 章 学 完 再 看 不 迟 。 译 者 已经 尽量 把 原文 扩展 的 描述 扩展 开 ， 但 是 文字 描述 始终 没 
有 图 形 更 具体 。 例如， 你 可 以 打开 一 个 Excel， 随 意 找 一 排 单元 格 并 输入 一 些 文字 (注意 是 
一 排 ) ， 然 后 选中 这 些 单元 格 ， 将 和 鼠标 移 至 选区 右 下 角 ， 当 指针 变 为 加 号 时 ， 按 住 向 下 拉 
几 行 ， 这 就 是 “ 沿 行 向 下 广播 ”。 
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许多 最 为 常见 的 数组 统计 功能 都 被 实现 成 DataFrame 的 方法 (如 sum 和 mean) ， 因 此 无 需 
使 用 apply 方 法 。 


除 标量 值 外 ， 传 递 给 apply 的 函数 还 可 以 返回 由 多 个 值 组 成 的 Series: 


In [164]: def f(x): 
.5 return Series([x.min()，x.max()]，index=[ "min'，'"max']) 


In [165]: frame.apply(f) 
b d e 
min -0.555730 0.281746 -1.296221 


max 1.246435 1.965781 1.393406 


此 外 ， 元 素 级 的 Python 函数 也 是 可 以 用 的 。 假 如 你 想得到 frame 中 各 个 浮 点 值 的 格式 化 字 
符 串 ， 使 用 applymap 即 可 : 


In [166]: format = lambda x: '%.2f" %x 


In [167]: frame.applymap(format) 
Out[167]: 

b d e 
Utah 。 -0.20 0.48 -0.52 
Ohio -0.56 1.97 1.39 
Texas 0.09 0.28 0.77 
Oregon 1.25 1.01 -1.30 


之 所 以 叫做 applymap， 是 因为 Series 有 一 个 用 于 应 用 元 素 级 函数 的 map 方 法 : 


In [168]: frame['e'].map(format) 


Out[168] : 
Utah -0.52 
Ohio 1.39 


Texas 0.77 
Oregon -1.30 
Name: e 


排序 和 排名 


根据 条 件 对 数据 集 排序 (sorting) 也 是 一 种 重要 的 内 置 运 算 。 要 对 行 或 列 索引 进行 排序 
( 按 字典 顺序 ) ， 可 使 用 sort_index 方 法 ， 它 将 返回 一 个 已 排序 的 新 对 象 ， 


In [169]: obj = Series(range(4), index=['d’, ‘a’, 'b', 'c']) 


In [170]: obj.sort_index() 


Out[170]: 
a 1 
b 2 
寂 7. 靖 
d 0 
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而 对 于 DataFrame， 则 可 以 根据 任意 一 个 轴 上 的 索引 进行 排序 : 


In [171]: frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three’, ‘one’], 
Fe columns=["d’, ‘a', ‘b’, 'c']) 


In [172]: frame.sort_index() In [173]: frame.sort_index(axis=1) 
out[172] : out[173] : 
da bc abcd 
one 4567 three 1 2 3 0 
three 0 1 2 3 one 5674 


数据 默认 是 按 升序 排序 的 ， 但 也 可 以 降序 排序 : 


In [174]: frame.sort_index(axis=1，ascending=False) 
out[174] : 


| 

three 0 3 2 4 

one 47565 

若 要 按 值 对 Series 进 行 排序 ， 可 使 用 其 order 方 法 ; 
In [175]: obj = Series([4, 7, -3, 2]) 


In [176]: obj.order() 


Out[176]: 
2 -3 
3 2 
0 4 
小 “于 


在 排序 时 ， 任 何 缺失 值 默认 都 会 被 放 到 Series 的 末尾 : 
In [177]: obj = Series([4, np.nan, 7, np.nan, -3, 2]) 


In [178]: obj.order() 


Out[178]: 
4 -3 
六 
0 4 
2 
1 NaN 
3 NaN 


在 DataFrame 上 ， 你 可 能 希望 根据 一 个 或 多 个 列 中 的 值 进行 排序 。 将 一 个 或 多 个 列 的 名 
字 传 递 给 by 选项 即 可 达到 该 目的 : 


In [179]: frame = DataFrame({'b': [4，7，-3，2]，"a': [0, 1, 0, 1]}) 


In [180]: frame In [181]: frame.sort_index(by="b’) 
Out[180]: Out[181]: 

ab ab 
0 0 4 ER 
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por 
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要 根据 多 个 列 进行 排序 ， 传 人 名 称 的 列表 即 可 : 


In [182]: frame.sort_index(by=['a'，'b']) 
Out[182]: 


Puon 
PPpoee 


排名 (ranking) 跟 排序 关系 密切 ， 且 它 会 增设 一 个 排名 值 (从 1 开始 ， 一 直到 数组 中 有 
效 数据 的 数量 ) 。 它 跟 numpy.argsort 产 生 的 间接 排序 索引 差不多 ， 只 不 过 它 可 以 根据 
某 种 规则 破坏 平 级 关系 。 接 下 来 介绍 Series 和 DataFrame 的 rank 方 法 。 默 认 情况 下 ，rank 
是 通过 “为 各 组 分 配 一 个 平均 排名 ”的 方式 破坏 平 级 关系 的 : 

In [183]: obj = Series([7, -5, 7, 4, 2, 0, 4]) 


In [184]: obj.rank() 


Out[184]: 
0 6.5 
1 1.0 
en; 
和 
4 3.0 
5 2.0 
6 4.5 


也 可 以 根据 值 在 原 数据 中 出 现 的 顺序 给 出 排名 FE 


In [185]: obj.rank(method='first') 
Out[185]: 
0 6 


ovrwNp 
vnwp~ 


当然 ， 你 也 可 以 按 降序 进行 排名 : 


In [186]: obj.rank(ascending=False, method="max") 


out[186] : 
0 2 
1 7 


译注 5: 类 似 于 稳定 排序 。 





140 | 第 5 章 


ww 
PoupN 


表 5-8 列 出 了 所 有 用 于 破坏 平 级 关系 的 method 选 项 。DataFrame 可 以 在 行 或 列 上 计算 
排名 : 


In [187]: frame = DataFrame({"b': [4.3，7，-3，2]，'a': [0, 1, 0, 1], 
wees ‘ce': [-2, 5, 8, -2.5]}) 


In [188]: frame In [189]: frame.rank(axis=1) 
Out[188]: Out[189]: 
a b c a b < 
0 0 4.3 -2.0 0 2 1 
1 1 7.0 5.0 加 .至 ,你 1/ 章 
2 0 -3.0 8.0 | 
3 1 2.0 -2.5 于 下 李 入 


表 5-8: 排名 时 用 于 破坏 平 级 关系 的 method 选 项 


method 说 明 

'average' 默认 : 在 相等 分 组 中 ， 为 各 个 值 分 配 平均 排名 
"min' 使 用 整个 分 组 的 最 小 排名 

"max' 使 用 整个 分 组 的 最 大 排名 

‘first’ 按 值 在 原始 数据 中 的 出 现 顺序 分 配 排名 





带 有 重复 值 的 轴 索 引 
直到 目前 为 止 ， 我 所 介绍 的 所 有 范例 都 有 着 唯一 的 轴 标签 (索引 值 ) 。 虽 然 许 多 pandas 
函数 (如 reindex) 都 要 求 标签 唯一 ， 但 这 并 不 是 强制 性 的 。 我 们 来 看 看 下 面 这 个 简单 
的 带 有 重复 索引 值 的 Series: 

In [190]: obj = Series(range(5)，index=['"a'，'a'，'b' 'b’, ‘c']) 


In [191]: obj 


Out[191]: 
a 0 
基本 
b 2 
b 3 
c 4 


索引 的 is_unique 属 性 可 以 告诉 你 它 的 值 是 否 是 唯一 的 : 


In [192]: obj.index.is_unique 
Out[192]: False 
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对 于 带 有 重复 值 的 索引 ， 数 据 选取 的 行为 将 会 有 些 不 同 。 如 果 某 个 索引 对 应 多 个 值 ， 则 
返回 一 个 Series， 而 对 应 单个 值 的 ， 则 返回 一 个 标量 值 。 


In [193]: obj['a'] In [194]: obj['c'] 
Out[193]: Out[194]: 4 

a 0 

a 1 


对 DataFrame 的 行进 行 索引 时 也 是 如 此 : 
In [195]: df = DataFrame(np.random.randn(4, 3), index=['a’, a’, ‘b', 'b']) 


In [196]: df 
Out[196]: 

0 1 2 
a 0.274992 0.228913 1.352917 
a 0.886429 -2.001637 -0.371843 
b 1.669025 -0.438570 -0.539741 
b 0.476985 3.248944 -1.021228 


In [197]: df.ix['b'] 
Out[197]: 

0 1 2 
b 1.669025 -0.438570 -0.539741 
b 0.476985 3.248944 -1.021228 


汇总 和 计算 描述 统计 


pandas 对 象 拥有 一 组 常用 的 数学 和 统计 方法 。 它 们 大 部 分 都 属于 约 简 和 汇总 统计 ， 用 于 
从 Series 中 提取 单个 值 (如 sum 或 mean) 或 从 DataFrame 的 行 或 列 中 提取 一 个 Series。 跟 
对 应 的 NumPy 数 组 方法 相 比 ， 它 们 都 是 基于 没有 缺失 数据 的 假设 而 构建 的 。 接 下 来 看 一 
个 简单 的 DataFrame: 

In lasel: df = DataFrame([[1.4, np.nan], [7.1, -4.5], 
[np.nan, np.nan], [0.75, -1.3]], 


index=['a’, ‘b’, 'c’, 'd'], 
columns=['one'，'two']) 





In [199]: df 
Out[199]: 
one two 
a 1.40 NaN 
b 7.10 -4.5 
cC NaN NaN 
d 0.75 -1.3 


调用 DataFrame 的 sum 方 法 将 会 返回 一 个 含有 列 小 计 的 Series: 


In [200]: df.sum() 
Out[200]: 
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one “9.25 
two -5.80 


传人 axis=1 将 会 按 行 进行 求 和 运算 : 


In [201]: df.sum(axis=1) 


Out[201]: 
a 1.40 
b 2.60 
€ NaN 
d 0.55 


NA 值 会 自动 被 排除 ， 除 非 整 个 切片 (这 里 指 的 是 行 或 列 ) 都 是 NA。 通 过 skipna 选 项 可 
以 禁用 该 功能 : 


In [202]: df.mean(axis=1, skipna=False) 


Out[202]: 

a NaN 
b 1.300 
电 NaN 
d -0.275 


表 5-9 列 出 了 这 些 约 简 方法 的 常用 选项 。 
表 5-9: 约 简 方法 的 选项 


选项 说 明 

axis 约 简 的 轴 。DataFrame 的 行 用 0， 列 用 1 

skipna 排除 缺失 值 ， 默 认 值 为 True 

level 如 果 轴 是 层次 化 索引 的 ( 即 MultilIndex) ， 则 根据 level 分 组 约 简 





有 些 方法 (如 idxmin 和 idxmax) 返回 的 是 间接 统计 (比如 达到 最 小 值 或 最 大 值 的 
索引 ) : 


In [203]: df.idxmax() 


Out[203]: 
one b 
two d 


另 一 些 方法 则 是 累计 型 的 : 


In [204]: df.cumsum() 
Out[204]: 
one two 
a 1.40 NaN 
b 8.50 -4.5 
c NaN NaN 
d 9.25 -5.8 
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还 有 一 种 方法 ， 它 既 不 是 约 简 型 也 不 是 累计 型 。describe 就 是 一 个 例子 ， 它 用 于 一 次 性 
产生 多 个 汇总 统计 : 


In [205]: df.describe() 
Out[205]: 

one two 
count 3.000000 2.000000 
mean 3.083333 -2.900000 
std 3.493685 2.262742 
min 0.750000 -4.500000 
25% 1.075000 -3.700000 
50% 1.400000 -2.900000 
75% 4.250000 -2.100000 
max 7.100000 -1.300000 


对 于 非 数值 型 数据 ，describe 会 产生 另外 一 种 汇总 统计 : 
In [206]: obj = Series(['a’, 'a’, 'b', 'c'] * 4) 
In [207]: obj.describe() 


Out[207]: 
count 1 


表 5-10 列 出 了 所 有 与 描述 统计 相关 的 方法 。 
表 5-10: 描述 和 汇总 统计 


方法 说 明 

count 非 NA 值 的 数量 

describe 针对 Series 或 各 DataFrame 列 计算 汇总 统计 
min、max 计算 最 小 值 和 最 大 值 

argmin、argmax 计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 位 置 (整数 ) 
idxmin、idxmax 计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 值 
quantile 计算 样本 的 分 位 数 (0 到 1) 

sum 值 的 总 和 

mean 值 的 平均 数 

median 值 的 算术 中 位 数 (50% 分 位 数 ) 

mad 根据 平均 值 计算 平均 绝对 高 差 

var 样本 值 的 方差 

std 样本 值 的 标准 差 
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表 5-10: 描述 和 汇总 统计 〈 续 ) 


方法 说 明 

skew 样本 值 的 偏 度 〈 三 阶 矩 ) 

kurt 样本 值 的 峰 度 〈 四 阶 矩 ) 

cumsum 样本 值 的 累计 和 

cummin、 cummax 样本 值 的 累计 最 大 值 和 累计 最 小 值 
cumprod 样本 值 的 累计 积 

diff 计算 一 阶 差分 (对 时 间 序 列 很 有 用 ) 
pct_change 计算 百分数 变化 


相关 系数 与 协 方差 
有 些 汇总 统计 (如 相关 系数 和 协 方差 ) 是 通过 参数 对 计算 出 来 的 。 我 们 来 看 几 个 
DataFrame ， 它 们 的 数据 来 自 Yahoo! Finance 的 股票 价格 和 成 交 量 : 


import pandas.io.data as web 


all_data = {} 
for ticker in ['AAPL', 'IBM', ‘MSFT', '600G']: 
all data[ticker] = web.get_data_yahoo(ticker, '1/1/2000', ‘1/1/2010') 


price = DataFrame({tic: data['Adj Close'] 
for tic, data in all_data.iteritems()}) 
volume - DataFrame({tic: data[ "volume'] 
for tic, data in all_data.iteritems()}) 


接 下 来 计算 价格 的 百分数 变化 : 
In [209]: returns = price.pct_change() 


In [210]: returns.tail() 
Out[210]: 

AAPL GO0G IBM MSFT 
Date 
2009-12-24 0.034339 0.011117 0.004420 0.002747 
2009-12-28 0.012294 0.007098 0.013282 0.005479 
2009-12-29 -0.011861 -0.005571 -0.003474 0.006812 
2009-12-30 0.012147 0.005376 0.005468 -0.013532 
2009-12-31 -0.004300 -0.004416 -0.012609 -0.015432 


Series 的 corr 方 法 用 于 计算 两 个 Series 中 重合 的 、 非 NA 的 、 按 索引 对 齐 的 值 的 相关 系 
数 。 与 此 类 似 ，cov 用 于 计算 协 方差 : 


In [211]: returns.MSFT.corr(returns.IBM) 
Out[211]: 0.49609291822168838 
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In [21: eturns.MSFT.cov(returns.IBM) 
Out[212]: 0.00021600332437329015 





DataFrame 的 corr 和 cov 方 法 将 以 DataFrame 的 形式 返回 完整 的 相关 系数 或 协 方差 矩阵 : 


In [213]: returns.corr() 
out[213] : 

AAPL 600G IBM MSFT 
AAPL 1.000000 0.470660 0.410648 0.424550 
G00G 0.470660 1.000000 0.390692 0.443334 
IBM 0.410648 0.390692 1.000000 0.496093 
MSFT 0.424550 0.443334 0.496093 1.000000 


In [214]: returns.cov() 
Out[214]: 

AAPL CO0G IBM MSFT 
AAPL 0.001028 0.000303 0.000252 0.000309 
G00G 0.000303 0.000580 0.000142 0.000205 
IBM 0.000252 0.000142 0.000367 0.000216 
MSFT 0.000309 0.000205 0.000216 0.000516 


利用 DataFrame 的 corrwith 方 法 ， 你 可 以 计算 其 列 或 行 跟 另 一 个 Series 或 DataFrame 之 间 
的 相关 系数 。 传 人 一 个 Series 将 会 返回 一 个 相关 系数 值 Series (针对 各 列 进行 计算 ) : 


In [215]: returns.corrwith(returns.IBM) 
Out[215]: 

AAPL 。 0.410648 

G00G 。 0.390692 

IBM 1.000000 

MSFT 0.496093 


传人 一 个 DataFrame 则 会 计算 按 列 名 配对 的 相关 系数 。 这 里 ， 我 计算 百分比 变化 与 成 交 
量 的 相关 系数 : 

In [216]: returns.corrwith(volume) 

Out[216]: 

AAPL -0.057461 

G00G 0.062644 


IBM -0.007900 
MSFT -0.014175 


传人 axis=1 即 可 按 行进 行 计算 。 无 论 如 何 ， 在 计算 相关 系数 之 前 ， 所 有 的 数据 项 都 会 按 
标签 对 齐 。 


唯一 值 、 值 计数 以 及 成 员 资格 
还 有 一 类 方法 可 以 从 一 维 Series 的 值 中 抽取 信息 。 以 下 面 这 个 Series 为 例 ， 


In [217]: obj = Series(['c’, ‘a’, da bb cc]) 
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第 一 个 函数 是 unique， 它 可 以 得 到 Series 中 的 唯一 值 数组 : 
In [218]: uniques = obj.unique() 


In [219]: uniques 
out[219]: array([c, a, d, b], dtype=object) 


返回 的 唯一 值 是 未 排序 的 ， 如 果 需 要 的 话 ， 可 以 对 结果 再 次 进行 排序 (uniques. 
sort()) 。value_counts 用 于 计算 一 个 Series 中 各 值 出 现 的 频率 : 


In [220]: obj.value_counts() 


Out[220]: 
| 
着 “入 
b 2 
d 并 


为 了 便于 查看 ， 结 果 Series 是 按 值 频率 降序 排列 的 。value_counts 还 是 一 个 顶级 pandas 方 
法 ， 可 用 于 任何 数组 或 序列 ， 


In [221]: pd.value counts(obj.values, sort=False) 


Out[221]: 
a 3 
b 2 
| 
d 1 


最 后 是 isin， 它 用 于 判断 矢量 化 集合 的 成 员 资格 ， 可 用 于 选取 Series 中 或 DataFrame 列 中 
数据 的 子 集 : 


In [222]: mask = obj.isin(['b’, 'c']) 


In [223]: mask In [224]: obj[mask] 
Out[223]: Out[224]: 

0 True 0 
False 5 
False 6 
False 7 
False 8 
True 

True 

True 

True 


表 5-11 给 出 了 这 几 个 方法 的 一 些 参考 信息 。 


nnoon 


oawmwPwnn 
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表 5-11: 唯一 值 、 值 计数 、 成 员 资格 方法 


方法 说 明 
isin 计算 一 个 表示 “Series 各 值 是 否 包含 于 传 入 的 值 序列 中 ”的 布尔 型 数组 
unique 计算 series 中 的 唯一 值 数组 ， 按 发 现 的 顺序 返回 


_value_counts ”返回 一 个 Series， 其 索引 为 唯一 值 ， 其 值 为 频率 ， 按 计数 值 降序 排列 





有 时， 你 可 能 希望 得 到 DataFrame 中 多 个 相关 列 的 一 张 柱状 图 。 例 如 : 


In Be data = DataFrame({'Qu1': [1, 3, 4, 3, 4], 
“Qu2': [2, 3, 1, 2, 3], 
"Qu3': [1, 5, 2, 4, 4]}) 





Qul Qu2 Qu3 
tk i 
kt 
第 沽 往 、: 痢 
时 入 
4 4 3 4 


将 pandas .value_counts 传 给 该 DataFrame 的 apply 函 数 ， 就 会 出 现 


In [227]: result = data.apply(pd.value_counts).fillna(0) 


In [228]: result 


Out[228]: 

Qul Qu2 Qu3 
入 1 > 1 
2 0 2 1 
上 3 村 入 0 
4 2 0 2 
5 0 0 1 


处 理 缺 失 数据 


缺失 数据 (missing data) 在 大 部 分 数据 分 析 应 用 中 都 很 常见 。pandas 的 设计 目标 之 一 就 
是 让 缺失 数据 的 处 理 任务 尽量 轻松 。 例 如 ，pandas 对 象 上 的 所 有 描述 统计 都 排除 了 缺失 
数据 ， 正 如 我 们 在 本 章 稍 早 的 地 方 所 看 到 的 那样 。 


pandas 使 用 浮 点 值 NaN (Not a Number) 表示 浮 点 和 非 浮 点 数组 中 的 缺失 数据 。 它 只 是 一 
个 便于 被 检测 出 来 的 标记 而 已 : 


In [229]: string data = Series(['aardvark'，'"artichoke'，np-nan，'"avocado']) 
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In [230]: string_data In [231]: string_data.isnull() 


out[230]: Out[231]: 

0 aardvark 0 False 
1 artichoke 1 False 
2 NaN True 
3 avocado 3 False 


Python 内 置 的 None 值 也 会 被 当做 NA 处 理 : 
In [232]: string data[0] = None 


In [233]: string_data.isnull() 


out[233] 

0 True 
1 False 
2 True 
3 False 


我 不 敢 说 pandas 的 NA 表现 形式 是 最 优 的 ， 但 它 确实 很 简单 也 很 可 靠 。 由 于 NumPy 的 数据 
类 型 体系 中 缺乏 真正 的 NA 数据 类 型 或 位 模式 ， 所 以 它 是 我 能 想到 的 最 佳 解决 方案 (一 
套 简单 的 API 以 及 足够 全 面 的 性 能 特征 ) 。 随 着 NumPy 的 不 断 发 展 ， 这 个 问题 今后 可 能 
会 发 生变 化 。 


表 5-12: NA 处 理 方法 


方法 说 明 

dropna 根据 各 标签 的 值 中 是 否 存在 缺失 数据 对 轴 标 签 进 行 过 滤 ， 可 通过 阅 值 调节 
对 缺失 值 的 容忍 度 

filIna 用 指定 值 或 插值 方法 (如 fiill 或 bfill) 填充 缺失 数据 

isnull 返回 一 个 含有 布尔 值 的 对 象 ， 这 些 布尔 值 表示 哪些 值 是 缺失 值 /NA， 该 对 


象 的 类 型 与 源 类 型 一 样 
_notnull isnull 的 否定 式 _ 


滤 除 缺失 数据 
过 滤 掉 缺失 数据 的 办 法 有 很 多 种 。 纯 手工 操作 永远 都 是 一 个 办 法 ， 但 dropna 可 能 会 更 实 
用 一 些 。 对 于 一 个 Series，dropna 返 回 一 个 仅 含 非 空 数据 和 索引 值 的 Series: 


In [234]: from numpy import nan as NA 
In [235]: data = Series([1, NA, 3.5, NA, 7]) 


In [236]: data.dropna() 


Out[236]: 
0 1.0 
2 3.5 
4 7.0 
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当然 ， 也 可 以 通过 布尔 型 索引 达到 这 个 目的 : 


In [237]: data[data.notnull()] 


out[237] : 
0 1.0 
2 3.5 
4 7.0 


而 对 于 DataFrame 对 象 ， 事 情 就 有 点 复杂 了 。 你 可 能 希望 丢弃 全 NA 或 含有 NA 的 行 或 
列 。dropna 默 认 丢弃 任何 含有 缺失 值 的 行 : 


In [238]: data = DataFrame([[1., 6.5, 3.], [1., NA, NA], 
a [NA, NA, NA], [NA, 6.5, 3.]]) 


In [239]: cleaned = data.dropna() 


In [240]: data In [241]: cleaned 
Out[240]: Out[241]: 
0 1 2 0 12 
0 16.5 3 0 1 6.5 3 
1 1 NaN NaN 
2 NaN NaN NaN 
3 NaN 6.5 3 


传人 how='al1' 将 只 技 弃 全 为 NA 的 那些 行 : 


In [242]: data.dropna(how='all') 


Out[242]: 

0 1 2 
0 1 .6.5 3 
1 1 NaN NaN 
3NaN 6.5 3 


要 用 这 种 方式 丢弃 列 ， 只 需 传 人 axis=1 即 可 : 


In [243]: data[4] = NA 


In [244]: data In [245]: data.dropna(axis=1，how='all') 
Out[244] : Out[245]: 
0 卫 间作 0 委 ”这 
0 1 6.5 3NaN | 
1 1 NaN NaN NaN 1 1 NaN NaN 
2 NaN NaN NaN NaN 2 NaN NaN NaN 
3 NaN 6.5 3 NaN 3 MaN 6.5 3 


另 一 个 滤 除 DataFrame 行 的 问题 涉及 时 间 序 列 数据 。 假 设 你 只 想 留 下 一 部 分 观测 数据 ， 
可 以 用 thresh 参 数 实现 此 目的 : 


In [246]: df = DataFrame(np.random.randn(7, 3)) 
In [247]: df.ix[:4, 1] = NA; df.ix[:2, 2] = NA 
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In [248]: df In [249]: df.dropna(thresh=3) 


Out[248] : Out[249]: 

0 1 2 0 1 2 
0 -0.577087 NaN NaN 5 0.332883 -2.359419 -0.199543 
1 0.523772 NaN NaN 6-1.541996 -0.970736 -1.307030 
2 -0.713544 NaN NaN 
3 -1.860761 NaN 0.560145 
4 -1.265934 NaN -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 


填充 缺失 数据 

你 可 能 不 想 滤 除 缺失 数据 (有 可 能 会 丢弃 跟 它 有 关 的 其 他 数据 ) ， 而 是 希望 通过 其 他 方 
式 填 补 那些 “空洞 ”。 对 于 大 多 数 情况 而 言 ，fillna 方 法 是 最 主要 的 函数 。 通 过 一 个 常 
数 调 用 flna 就 会 将 缺失 值 替换 为 那个 常数 值 : 


In [250]: df. 们 lna(o) 
Out[250]: 

0 1 2 
0 -0.577087 0.000000 0.000000 
1 0.523772 0.000000 0.000000 
2 -0.713544 0.000000 0.000000 
3 -1.860761 0.000000 0.560145 
4 -1.265934 0.000000 -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 





若是 通过 一 个 字典 调用 们 lna， 就 可 以 实现 对 不 同 的 列 填充 不 同 的 值 ， 


In [251]: df.fillna({1: 0.5, 3: -1}) 
Out[251]: 
0 和 2 
0 -0.577087 0.500000 NaN 
1 0.523772 0.500000 NaN 
2 -0.713544 0.500000 NaN 
3 -1.860761 0.500000 0.560145 
4 -1.265934 0.500000 -1.063512 
5 0.332883 -2.359419 -0.199543 
6 -1.541996 -0.970736 -1.307030 





们 1na 默 认 会 返回 新 对 象 ， 但 也 可 以 对 现 有 对 象 进行 就 地 修改 : 


# 总 是 返回 被 填充 对 象 的 引用 





In [252]: _ = df. 们 lna(0，inplace=True) 
In [253]: df 
Out[253]: 

0 2 


0 -0.577087 0.000000 0.000000 
1 0.523772 0.000000 0.000000 
2 -0.713544 0.000000 0.000000 
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3 -1.860761 0.000000 0.560145 
4 -1.265934 0.000000 -i 
5 0.332883 -2.359419 -! 
6 -1.541996 -0.970736 -i 





对 reindex 有 效 的 那些 插值 方法 也 可 用 于 们 lna: 
In [254]: df = DataFrame(np.random.randn(6，3)) 


In [255]: df.ix[2:, 1] = NA; df.ix[4:, 2] = NA 





In [256]: df 
Out[256]: 

0 1 有 
0 0.286350 0.377984 -0.753887 
1 0.331286 1.349742 0.069877 
2 0.246674 NaN 1.004812 
3 1.327195 NaN -1.549106 
4 0.022185 NaN NaN 
5 0.862580 NaN NaN 
In [257]: df.fillna(method=" ffill') In [258]: df.fillna(method=" ffill', limit=2) 
out[257]: Out[258]: 

0 1 2 0 1 2 
0 0.286350 0.377984 -0.753887 0 0.286350 0.377984 -0.753887 
1 0.331286 1.349742 0.069877 1 0.331286 1.349742 0.069877 
2 0.246674 1.349742 1.004812 2 0.246674 1.349742 1.004812 
3 1.327195 1.349742 -1.549106 3 1.327195 1.349742 -1.549106 
4 0.022185 1.349742 -1.549106 4 0.022185 NaN -1.549106 
5 0.862580 1.349742 -1.549106 5 0.862580 NaN -1.549106 


只 要 稍微 动 动脑 子 ， 你 就 可 以 利用 fillna 实 现 许 多 别 的 功能 。 比 如 说 ， 你 可 以 传人 Series 
的 平均 值 或 中 位 数 : 


In [259]: data = Series([1., NA, 3.5, NA, 7]) 


In [260]: data.fillna(data.mean()) 


Out[260]: 

0 1.000000 
1 3.833333 
2 3.500000 
3 3.833333 
4 7.000000 


表 5-13 列 出 了 fllna 的 参数 参考 。 


表 5-13: filIna 画 数 的 参数 
参数 说 明 


value 用 于 填充 缺失 值 的 标量 值 或 字典 对 象 
method 插值 方式 。 如 果 函 数 调用 时 未 指定 其 他 参数 的 话 ， 默 认为 “ffill” 
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表 5-13: fillIna 画 数 的 参数 ( 续 ) 


参数 说 明 

axis 待 填充 的 轴 ， 默 认 axis=0 

inplace 修改 调用 者 对 象 而 不 产生 副本 

limit (对 于 前 向 和 后 向 填充 ) 可 以 连续 填充 的 最 大 数量 





受 次 化 索引 


层次 化 索引 (hierarchical indexing) 是 pandas 的 一 项 重要 功能 ， 它 使 你 能 在 一 个 轴 上 拥 
有 多 个 (两 个 以 上 ) 索引 级 别 。 抽 象 点 说 ， 它 使 你 能 以 低 维度 形式 处 理 高 维度 数据 。 
我 们 先 来 看 一 个 简单 的 例子 : 创建 一 个 Series， 并 用 一 个 由 列表 或 数组 组 成 的 列表 作为 
索引 。 


In 多 data = Series(np.random.randn(10), 
= index=[['a，'a "ab bb 'c’, 'c’, 'd', 'd'], 
[1, 2, 3, 1, 2, 3, 1, 2, 2, 3]]) 


In [262]: data 
Out[262]: 

a 1 0.670216 
0.852965 
-0.955869 
-0.023493 
-2.304234 
-0.652469 
-1.218302 
-1.332610 
1.074623 
0.723642 


这 就 是 带 有 MultiIndex 索 引 的 Series 的 格式 化 输出 形式 。 索 引 之 间 的 “间隔 ”表示 “ 直 
接 使 用 上 面 的 标签 ”: 
In [263]: data.index 
Out[263]: 
MultiIndex 
[Ca’, 1) (a, 2) (a, 3) (bi ('b’, 2) ('b', 3) (ci ('c', 2) ('d', 2) 
('d', 3)] 


对 于 一 个 层次 化 索引 的 对 象 ， 选 取 数据 子 集 的 操作 很 简单 : 


In [264]: data['"b'] 


out[264] : 
1 -0.023493 
2 -2.304234 


3 -0.652469 
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In [265]: data['b':c'] In [266]: data.ix[['b'，'d']] 





023493 
“304234 
3 -0.652469 -0.652469 
c 1 -1.218302 d 2 1.074623 
2 -1.332610 3 0.723642 


有 了 时 甚至 还 可 以 在 “内 层 ” 中 进行 选取 : 


In [267]: data[:, 2] 


Out[267]: 

a 0.852965 
b -2.304234 
< -1.332610 
d 1.074623 


层次 化 索引 在 数据 重 塑 和 基于 分 组 的 操作 (如 透视 表 生 成 ) 中 扮演 着 重要 的 角色 。 比 如 
说 ， 这 段 数据 可 以 通过 其 unstack 方 法 被 重新 安排 到 一 个 DataFrame 中 : 


In [268]: data.unstack() 
Out[268]: 

1 2 FE 
a 0.670216 0.852965 -0.955869 
b -0.023493 -2.304234 -0.652469 





< -1.218302 -1.332610 NaN 
d NaN 1.074623 0.723642 
unstack 的 逆 运 算是 stack: 
In [269]: data.unstack().stack() 
Out[269]: 
a 1 0.670216 
2 0.852965 
3 -0.955869 
b 1 -0.023493 
2 -2.304234 
3 -0.652469 
c 1 
2 
| 。 
3 0.723642 


stack 和 unstack 将 在 第 7 章 中 详细 讲解 。 
对 于 一 个 DataFrame， 每 条 轴 都 可 以 有 分 层 索 引 : 


In [270]: frame = DataFrame(np.arange(12).reshape((4, 3)), 
index=[["a’, ‘a’, ‘b’, 'b'], [1, 2, 1, 2]], 

io' ，'Colorado' ], 

['Green', 'Red', 'Green']]) 
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In [271]: frame 


Out[271]: 
Ohio Colorado 
Green Red Green 
Lo 0 总 2 
2 3 4 5 
bi 6 7 8 
2 9 10 11 


各 层 都 可 以 有 名 字 (可 以 是 字符 串 ， 也 可 以 是 别 的 Python 对 象 ) 。 如 果 指 定 了 名 称 ， 它 
们 就 会 显示 在 控制 台 输出 中 (不 要 将 索引 名 称 跟 轴 标签 混为一谈 ! ) : 


In [272]: frame.index.names = ['key1', "key2 ] 
In [273]: frame.columns.names = ['state’, ‘color'] 


In [274]: frame 


Out[274]: 

state Ohio Colorado 

color Green Red Green 

key1 key2 

和 0 1 2 
2 3 4 5 

b 1 6 ¥ 8 
2 9 10 11 


由 于 有 了 分 部 的 列 索引 ， 因 此 可 以 轻松 选取 列 分 组 ; 


In [275]: frame['Ohio'] 
out[275]: 

color Green Red 
key1 key2 
a 9 


b 


wauwo 
日 ~ = 


1 
可 以 单独 创建 MultiIndex 然 后 复 用 。 上 面 那个 DataFrame 中 的 (分 级 的 ) 列 可 以 这 样 
创建 : 


MultiIndex. from_arrays([['Ohio', 'Ohio’, ‘Colorado'], ['Green', ‘Red', 'Green']], 
names=['state’, ‘color']) 


重 排 分 级 顺序 

有 时 ， 你 需要 重新 调整 某 条 轴 上 各 级 别 的 顺序 ， 或 根据 指定 级 别 上 的 值 对 数据 进行 排 
序 。swapleve1 接 受 两 个 级 别 编号 或 名 称 ， 并 返回 一 个 互 换 了 级 别 的 新 对 象 (但 数据 不 
会 发 生变 化 ) : 
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In [276]: frame.swaplevel('key1', "key2 ) 


Out[276]: 

state Ohio Colorado 
color Green Red Green 
key2 key1 

1 a 0 1 2 
2 a 3 4 5 
二 b 6 7 8 
2 b 9 10 11 


而 sortlevel 则 根据 单个 级 别 中 的 值 对 数据 进行 排序 (稳定 的 ) 。 交 换 级 别 时 ， 常 常 也 会 
用 到 sortlevel， 这 样 最 终结 果 就 是 有 序 的 了 : 


In [277]: frame.sortlevel(1) In [278]: frame.swaplevel(0, 1).sortlevel(0) 
Out[277]: Out[278]: 

state Ohio Colorado state Ohio Colorado 

color Green Red Green Color Green Red Green 

key1 key2 key2 key1 

a 1 娘 “各 2 多 “ 坟 0 1 2 

b 1 6 7 8 b 6 7 8 

a 2 3 4 5 2 a 3 4 5 

六 9 10 11 b 9 10 11 


注意 ;在 层次 化 索引 的 对 象 上 ， 如 果 索 引 是 按 字典 方 式 从 外 到 内 排序 〈 即 调用 sortlevel(o) 或 
sort_index() 的 结果 ) ， 数 据 选取 操作 的 性 能 要 好 很 多 。 


根据 级 别 汇总 统计 
许多 对 DataFrame 和 Series 的 描述 和 汇总 统计 都 有 一 个 level 选 项 ， 它 用 于 指定 在 某 条 轴 


上 求 和 的 级 别 。 再 以 上 面 那个 DataFrame 为 例 ， 我 们 可 以 根据 行 或 列 上 的 级 别 来 进行 求 
和 ， 如 下 所 示 : 





In [279]: frame.sum(level='key2') 





Out[279]: 

state Ohio Colorado 
color Green Red Green 
key2 

1 8 10 
2 12 14 16 


In [280]: frame.sum(level-'color'，axis=1) 


Out[280]: 

color Green Red 

key1 key2 

a 1 2 1 
2 8 4 

村” 14 7 
2 20 10 


这 其 实 是 利用 了 pandas 的 groupby 功 能 ， 本 书 稍 后 将 对 其 进行 详细 讲解 。 
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使 用 DataFrame 的 列 


人 们 经 常 想 要 将 DataFrame 的 一 个 或 多 个 列 当做 行 索引 来 用 ， 或 者 可 能 希望 将 行 索引 变 
成 DataFrame 的 列 。 以 下 面 这 个 DataFrame 为 例 : 
In [281]: frame = DataFrane({'a': range(7), 'b': range(7, 0, -1), 


'c': ['one’, ‘one'’, ‘one’, 'two', 'two’, 'two’, 'two’], 
‘d': [0, 1, 2, 0, 1, 2, 3]}) 





In [282]: frame 


Out[282]: 

ab cd 
0 0 7 one 0 
1 1 6 one 1 
2 25 one 2 
3 3 4 tw 0 
443 tw 1 
5 5 2 two 2 
56 61 tw 3 


DataFrame 的 set_index 函 数 会 将 其 一 个 或 多 个 列 转换 为 行 索引 ， 并 创建 一 个 新 的 
DataFrame 

In [283]: frame2 = frame.set_index(['c', 'd']) 

In [284]: frame2 


Out[284]: 
ab 


+ 

二 

5 

o 
mwmPwnono 
bwwewmwan 


默认 情况 下 ， 那 些 列 会 从 DataFrame 中 移 除 ， 但 也 可 以 将 其 保留 下 来 : 


In [285]: frame.set_index(['c', 'd'], drop=False) 


Out[285]: 

ab cd 
EE 
one0 0 7 one 0 
有 
22 5 one 2 
two0 3 4 two 0 
143 tw 1 
25 2 two 2 
361 tw 3 


reset_index 的 功能 跟 set_index 刚 好 相反 ， 层 次 化 索引 的 级 别 会 被 转移 到 列 里 面 : 
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In [286]: frame2.reset_index() 
out[286] : 

< 
one 
one 
one 
two 
two 
two 
two 


其 他 有 关 pandas 的 话题 


这 里 是 另外 一 些 可 能 在 你 的 数据 旅程 中 用 得 着 的 有 关 pandas 的 话题 。 


整数 索引 

操作 由 整数 索引 的 pandas 对 象 常常 会 让 新 手 抓 狂 ， 因 为 它们 跟 内 置 的 Python 数据 结构 
(如 列表 和 元 组 ) 在 索引 语义 上 有 些 不 同 。 例 如 ， 你 可 能 认为 下 面 这 段 代码 不 会 产生 一 
个 错误 ， 


amwPewnnpeo 
wnprovproa 
ourpwNrog 

PNwpUaJg 





ser = Series(np.arange(3.)) 

ser[-1] 
在 这 种 情况 下 ， 虽然 pandas 会 “求助 于 ”整数 索引 ， 但 没有 哪 种 方法 (至少 我 就 不 知 
道 ) 能 够 既 不 引入 任何 bug 又 安全 有 效 地 解决 该 问题 。 这 里 ， 我 们 有 一 个 含有 0、1、2 的 
索引 ， 但 是 很 难 推断 出 用 户 想 要 什么 (基于 标签 或 位 置 的 索引 ) : 

In [288]: ser 

out[288] : 

0 0 


| 
多 


相反 ， 对 于 一 个 非 整 数 索 引 ， 就 没有 这 样 的 歧义 : 
In [289]: ser2 = Series(np.arange(3.), index=['a’, 'b', 'c']) 
In [290]: ser2[-1] 
Out[290]: 2.0 


为 了 保持 良好 的 一 致 性 ， 如 果 你 的 轴 索 引 含有 索引 器 ， 那 么 根据 整数 进行 数据 选取 的 操 
作 将 总 是 面向 标签 的 。 这 也 包括 用 ix 进行 切片 : 


In [291]: ser.ix[:1] 
Out[291]: 

0 0 

1 1 
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如 果 你 需要 可 靠 的 、 不 考虑 索引 类 型 的 、 基 于 位 置 的 索引 ， 可 以 使 用 Series 的 iget_ 
value 方 法 和 DataFrame 的 irow 和 icol 方 法 : 
In [292]: ser3 = Series(range(3), index=[-5, 1, 3]) 


In [293]: ser3.iget_value(2) 
Out[293]: 2 





: frame = DataFrame(np.arange(6).reshape(3, 2), index=[2, 0, 1]) 





Out[295]: 
0 0 
由 人 人 
Name: 2 


面板 数据 

pandas 有 一 个 Panel 数 据 结构 (不 是 本 书 的 主要 内 容 ) ， 你 可 以 将 其 看 做 一 个 三 维 版 的 
DataFrame。pandas 的 大 部 分 开发 工作 都 集中 在 表格 型 数据 的 操作 上 ， 因 为 这 些 数据 更 常 
见 ， 而 且 层次 化 索引 也 使 得 多 数 情况 下 没 必要 使 用 真正 的 N 维 数组 。 


你 可 以 用 一 个 由 DataFrame 对 象 组 成 的 字典 或 一 个 三 维 ndarray 来 创建 Panel 对 象 , 


import pandas.io.data as web 


pdata = pd.Panel(dict((stk, web.get_data_yahoo(stk, '1/1/2009', '6/1/2012')) 
for stk in ["AAPL', 'GO0G', 'MSFT', 'DELL'])) 


Panel 中 的 每 一 项 (类似 于 DataFrame 的 列 ) 都 是 一 个 DataFrame: 


In [297]: pdata 

Out [297]: 

<class "pandas.core.panel.Panel'> 

Dimensions: 4 (items) x 861 (major) x 6 (minor) 

Items: AAPL to MSFT 

Major axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00 
Minor axis: Open to Adj Close 





In [298]: pdata = pdata. swapaxes('items', ‘minor') 
In [299]: pdata['Adj Close'] 

Out[299]: 

<class "pandas.core.frame.DataFrame'> 
DatetimeIndex: 861 entries, 2009-01-02 00:00:00 to 2012-06-01 00:00:00 
Data columns: 

AAPL 861 non-null values 

DELL 。 861 non-null values 

6G006 861 non-null values 

MSFT 861 non-null values 

dtypes: float64(4) 
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基于 ix 的 标签 索引 被 推广 到 了 三 个 维度 ， 因 此 我 们 可 以 选取 指定 日 期 或 日 期 范围 的 所 有 
数据 ， 如 下 所 示 : 


In [300]: pdata.ix[:, '6/1/2012', :] 
Out[300]: 

Open High Low Close Volume Adj Close 
AAPL 569.16 572.65 560.52 560.99 18606700 560.99 


DELL 12.15 12.30 12.05 12.07 19396700 12.07 
GO0G 571.79 572.65 568.35 570.98 3057900 570.98 
MSFT 28.76 28.96 28.44 28.45 56634300 28.45 
In [301]: pdata.ix['Adj Close’, '5/22/2012':, :] 
Out[301]: 

AAPL DELL GO0G MSFT 
Date 


2012-05-22 556.97 15.08 600.80 29.76 
2012-05-23 570.56 12.49 609.46 29.11 
2012-05-24 565.32 12.45 603.66 29.07 
2012-05-25 562.29 12.46 591.53 29.06 
2012-05-29 572.27 12.66 594.34 29.56 
2012-05-30 579.17 12.56 588.23 29.34 
2012-05-31 577.73 12.33 580.86 29.19 
2012-06-01 560.99 12.07 570.98 28.45 


另 一 个 用 于 呈现 面 
形式 ， 





数据 (尤其 是 对 拟 合 统计 模型 】 的 办 法 是 “堆积 式 的 ”DataFrame 


In [302]: stacked = pdata.ix[:, '5/30/2012':, :].to_frame() 


In [303]: stacked 


Out[303]: 
Open High low Close Volumne Adj Close 
major minor 
2012-05-30 AAPL 569.20 579.99 566.56 579.17 18908200 579.17 
DELL 12.59 12.70 12.46 12.56 19787800 12.56 
G00G 588.16 591.90 583.53 588.23 1906700 588.23 
MSFT 29.35 29.48 29.12 29.34 41585500 29.34 
2012-05-31 AAPL 580.74 581.50 571.46 577.73 17559800 577.73 
DELL 。 12.53 12.54 12.33 12.33 19955500 12.33 
G00G 588.72 590.00 579.00 580.86 2968300 580.86 
MSFT 29.30 29.42 28.94 29.19 39134000 29.19 
2012-06-01 AAPL 569.16 572.65 560.52 560.99 18606700 560.99 
DELL 12.15 12.30 12.05 12.07 19396700 12.07 
GO0G 571.79 572.65 568.35 570.98 3057900 570.98 
MSFT 28.76 28.96 28.44 28.45 56634300 28.45 


DataFrame 有 一 个 相应 的 to_panel 方 法 ， 它 是 to_frame 的 逆 运 算 : 


In [304]: stacked.to_panel() 

out[304] : 

<class 'pandas.core.panel.Panel'> 
Dimensions: 6 (items) x 3 (major) x 4 (minor) 





Items: Open to Adj Close 
Major axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00 
Minor axis: AAPL to MSFT 
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第 6 训 


数据 加 载 、 存 储 与 文件 格式 





如 果 不 能 将 数据 导入 导出 Python， 本 书 所 介绍 的 这 些 工具 就 没什么 大 用 。 我 打算 着 重 介 
绍 pandas 的 输入 输出 对 象 ， 虽 然 别 的 库 中 也 有 不 少 以 此 为 目的 的 工具 。 例 如 ，NumPy 提 
供 了 一 个 低级 但 异常 高 效 的 二 进 制 数据 加 载 和 存储 机 制 ， 包 括 对 内 存 映射 数组 的 支持 
等 。 详 细 内 容 请 参阅 第 12 章 。 


输入 输出 通常 可 以 划分 为 几 个 大 类 : 读 取 文 本 文件 和 其 他 更 高 效 的 磁盘 存储 格式 ， 加 载 
数据 库 中 的 数据 ， 利 用 Web API 操 作 网 络 资源 。 
读 写 文本 格式 的 数据 


因为 其 简单 的 文件 交互 语法 、 直 观 的 数据 结构 ， 以 及 诸如 元 组 打包 解 包 之 类 的 便利 功 
能 ，Python 在 文本 和 文件 处 理 方面 已 经 成 为 一 门 招 人 喜欢 的 语言 。 





pandas 提 供 了 一 些 用 于 将 表格 型 数据 读 取 为 DataFrame 对 象 的 函数 。 表 6-1 对 它们 进行 了 
， 其 中 read_csv 和 read_table 可 能 会 是 你 今后 用 得 最 多 的 。 





表 6-1: pandas 中 的 解析 函数 


函数 说 明 

read_csv 从 文件 、URL、 文 件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 逗号 

read_table 从 文件 、URL、 文 件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 制 
表 符 (“\t”) 

read_fwf 读 取 定 宽 列 格式 数据 (也 就 是 说 ， 没 有 分 隔 符 ) 

read_clipboard 读 取 剪 贴 板 中 的 数据 ， 可 以 看 做 read_table 的 剪贴 板 版 。 在 将 网 页 转换 
为 表格 时 很 有 用 
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我 将 大 致 介绍 一 下 这 些 函 数 在 将 文本 数据 转换 为 DataFrame 时 所 用 到 的 一 些 技术 。 这 些 
函数 的 选项 可 以 划分 为 以 下 几 个 大 类 : 


索引 : 将 一 个 或 多 个 列 当做 返回 的 DataFrame 处 理 ， 以 及 是 否 从 文件 、 用 户 获 取 
列 名 。 


类 型 推断 和 数据 转换 : 包括 用 户 定义 值 的 转换 、 缺 失 值 标记 列表 等 。 


日 期 解析 : 包括 组 合 功能 ， 比 如 将 分 散在 多 个 列 中 的 日 期 时 间 信息 组 合成 结果 中 的 
单个 列 。 


和 迭代: 支持 对 大 文件 进行 逐 块 迭 代 。 
不 规整 数据 问题 : 跳 过 一 些 行 、 页 脚 、 注 释 或 其 他 一 些 不 重要 的 东西 〈 比 如 由 成 千 
上 万 个 逗号 隔 开 的 数值 数据 ) 。 


类 型 推断 (type inference) 是 这 些 函 数 中 最 重要 的 功能 之 一 ， 也 就 是 说 ， 你 不 需要 指定 
列 的 类 型 到 底 是 数值 、 整 数 、 布 尔 值 ， 还 是 字符 串 。 日 期 和 其 他 自 定义 类 型 的 处 理 需要 
多 花 点 工夫 才 行 。 首 先 我 们 来 看 一 个 以 逗号 分 隔 的 〈CSV) 文本 文件 : 


In [846]: lcat cho6/exl.csv 立 注 1 


asb,c,d,message 
1,2,3,4,hello 
5,6,7,8,world 
9,10,11,12,foo 


由 于 该 文件 以 逗号 分 隔 ， 所 以 我 们 可 以 使 用 read_csv 将 其 读 入 一 个 DataFrame: 


In [847]: df = pd.read_csv('cho6/ex1i.csv') 


In [848]: df 
Out[848]: 

a b ¢ dmessage 
01 2 3 4 hello 
15 6 7 8 world 
291011 12 foo 


我 们 也 可 以 用 read_table， 只 不 过 需要 指定 分 隔 符 而 已 : 


In [849]: pd.read table('cho6/exi.csv', sep=",') 
Out[849]: 

a b c dmnessage 
01 2 3 4 hello 
15 6 7 8 world 
2 9 


译注 1， 还 是 那 自 话 ， 作 者 用 的 是 UNIX，Windows 下 得 用 type。 
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注意 : 这 里 我 用 的 是 cat 这 个 UNIX shell 命 令 将 文本 的 原始 内 容 打印 到 屏幕 上 。 如 果 你 用 的 是 
Windows， 则 可 以 使 用 type 来 达到 同样 的 目的 。 








并 不 是 所 有 文件 都 有 标题 行 。 看 看 下 面 这 个 文件 : 


In [850]: !cat cho6/ex2.csv 

1,2,3,4,hello 

5,6,7,8,world 

9,10,11,12,fo0 
读 入 该 文件 的 办 法 有 两 个 。 你 可 以 让 pandas 为 其 分 配 默 认 的 列 名 ,也 可 以 自己 定义 
列 名 : 


In [851]: pd.read_csv('cho6/ex2.csv', header=None) 


Out[851]: 
X.1 X.2 X.3 X.4 。 X.5 
0 1 2 3 4 hello 


1 5 6 7 8 world 
2 91011 12 foo 


In [852]: pd.read_csv('cho6/ex2.csv', names=['a’, 'b', 'c', 'd', 'message']) 
Out[852]: 
a b c dmessage 
01 2 3 4 hello 
15 6 7 8 world 
2 9 10 11 12 foo 


假设 你 希望 将 message 列 做 成 DataFrame 的 索引 。 你 可 以 明确 表示 要 将 该 列 放 到 索引 4 的 
位 置 上 ， 也 可 以 通过 index_col 参 数 指定 “message”: 


In [853]: nanes = ['a'，'b 'c', 'd', ‘nessage'] 


In [854]: pd.read_csv('cho6/ex2.csv', names=names, index_col='message') 
Out[854]: 
省 着 下 了 前 
message 
hello 和 和 淹 
world 5 6 7 8 
foo 9 10 11 12 


如 果 希 望 将 多 个 列 做 成 一 个 层次 化 索引 ， 只 需 传 入 由 列 编号 或 列 名 组 成 的 列表 即 可 ， 


In [855]: !cat cho6/csv_mindex.csv 
key1, key2, value1, value2 

one,a,1,2 

one,b,3,4 

one,c,5,6 

one,d,7,8 

two,a,9,10 

two,b,11,12 
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two,c,13,14 
two,d,15,16 


In [856]: parsed = pd.read_csv('cho6/csv_mindex.csv’, index_col=['key1', ‘key2']) 
In [857]: parsed 


Out[857]: 
valuel value2 

key1 key2 
one a 1 2 
b 3 4 
€ 打 6 
d 7 8 
two a 9 10 
b 11 12 
< 13 14 
d 15 16 


有 些 表格 可 能 不 是 用 固定 的 分 隔 符 去 分 隔 字 段 的 (比如 空白 符 或 其 他 模式 计生 ?) 。 对 于 
这 种 情况 ， 可 以 编写 一 个 正则 表达 式 来 作为 read_tabl1e 的 分 隔 符 。 看 看 下 面 这 个 文本 
文件 ; 


In [858]: list(open('cho6/ex3.txt')) 

Out[858]: 

四 A B Cn 
"aaa -0.264438 -1.026059 -0.619500\n'， 
"bbb 0.927272 0.302904 -0.032399\n'， 
"ccc -0.264273 -0.386314 -0.217601\n' ， 
"ddd -0.871858 -0.348382 1.100491\n'] 


该 文件 各 个 字段 由 数量 不 定 的 空白 符 分 隔 ， 虽 然 你 可 以 对 其 做 一 些 手 工 调整 ， 但 这 个 情 
况 还 是 处 理 比较 好 。 本 例 的 这 个 情况 可 以 用 正则 表达 式 \s+ 表 示 ， 于 是 我 们 就 有 了 : 


In [859]: result = pd.read table('cho6/ex3.txt', sep="\s+') 


In [860]: result 
Out[860]: 

A B c 
aaa -0.264438 -1.026059 -0.619500 
bbb 0.927272 0.302904 -0.032399 
Cec -0.264273 -0.386314 -0.217601 
ddd -0.871858 -0.348382 1.100491 


这 里 ， 由 于 列 名 比 数据 行 的 数量 少 评 E， 所 以 read_table 推 断 第 一 列 应 该 是 DataFrame 的 
索引 。 








一 词 表示 的 是 “字符 事 ”。 如 果 对 此 概念 较 模 糊 ， 建 议 阅读 《数据 





译注 3: 准确 的 说 法 应 该 是 : 列 名 的 数量 比 列 的 数量 少 1。 完 整 的 说 法 应 该 是 : 列 名 “ 行 ”中 “有 
内 容 的 ”字段 数 量 比 其 他 数据 “ 行 ” 中 “有 内 容 的 ”字段 数量 少 1。 
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这 些 解析 器 函数 还 有 许多 参数 可 以 帮助 你 处 理 各 种 各 样 的 异形 文件 格式 (参见 表 6-2) 。 
比如 说 ， 你 可 以 用 skiprows 跳 过 文件 的 第 一 行 、 第 三 行 和 第 四 行 : 


In [861]: !cat cho6/ex4.csv 


# hey! 
asbscsdsmessage 


# just wanted to make things more difficult for you 


# who reads CSV files with c 
1,2,3,4,hello 
5,6,7,8,world 
9,10,11,12,foo 


omputers, anyway? 


In [862]: pd.read_csv('cho6/ex4.csv', skiprows=[0, 2, 3]) 


Out[862]: 

a b c dmessage 
2 3 4 hello 
6 7 8 world 
0 11 12 foo 


缺失 值 处 理 是 文件 解析 任务 中 的 一 个 重要 组 成 部 分 。 缺 失 数据 经 常 是 要 么 没有 ( 空 字符 
串 ) ， 要 么 用 某 个 标记 值 表示 。 默 认 情 况 下 ，pandas 会 用 一 组 经 常 出 现 的 标记 值 进行 识 
别 ， 如 NA、-1.#IND 以 及 NULL 等 : 


In [863]: !cat cho6/ex5.csv 
something, a,b,c,d,message 
one,1,2,3,4,NA 
two,5,6,,8,world 
three,9,10,11,12, foo 


In [864]: result = pd.read 


In [865]: result 


Out[865]: 

something a b c d 
0 one 1 2 3 4 
和 two 5 6NaN 8 
2 three 9 10 11 12 


In [866]: pd.isnull(result) 
Out[866]: 





something a b 
0 False False False 
1 False False False 
2 False False False 


csv('cho6/ex5.csv') 


message 
NaN 
world 
foo 


¢ dmnessage 
False False True 
True False False 
False False False 


na_values 可 以 接受 一 组 用 于 表示 缺失 值 的 字符 串 : 


In [867]: result = pd.read 


In [868]: result 


Out [868]: 

something a 

0 one 1 2 3 4 
各 two 5 6NaN 8 
three 9 10 11 12 


csv('cho6/ex5.csv'，na_values=['NULL']) 


b ¢ dmessage 


NaN 
world 
foo 
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可 以 用 一 个 字典 为 各 列 指定 不 同 的 NA 标记 值 : 


In [869]: sentinels = {'message': ["foo'，'NA']，'something': ['two']} 


In [870]: pd.read_csv('cho6/ex5.csv', na_values=sentinels) 


Out[870]: 


something a b c dmessage 
0 one 1 2 3 4 NaN 
3 NaN 5 6NaN 8 world 
2 three 9 10 11 12 NaN 


表 6-2: read_csv/read_table 函 数 的 参数 


参数 

path 
sep 或 delimiter 
header 


index_col 


names 


skiprows 


na_values 
comment 


parse_dates 


keep_date_col 


converters 


dayfirst 


date_parser 
nrows 
iterator 
chunksize 


skip_footer 


说 明 

表示 文件 系统 位 置 、URL、 文 件 型 对 象 的 字符 串 

用 于 对 行 中 各 字段 进行 拆 分 的 字符 序列 或 正则 表达 式 

用 作 列 名 的 行 号 。 默 认为 0 (第 一 行 ) ， 如 果 没 有 header 行 就 应 该 设置 
为 None 


用 作 行 索引 的 列 编号 或 列 名 。 可 以 是 单个 名 称 / 数 字 或 由 多 个 名 称 /数字 
组 成 的 列表 〈 层 次 化 索引 ) 


用 于 结果 的 列 名 列表 ， 结 合 header=None 


需要 忽略 的 行 数 (从 文件 开始 处 算 起 ) ， 或 需要 跳 过 的 行 号 列表 (从 0 
开始 ) 

一 组 用 于 替换 NA 的 值 

用 于 将 注释 信息 从 行 尾 拆 分 出 去 的 字符 (一 个 或 多 个 ) 

尝试 将 数据 解析 为 日 期 ， 默 认为 False。 如 果 为 True， 则 尝试 解析 所 
有 列 。 此 外 ， 还 可 以 指定 需要 解析 的 一 组 列 号 或 列 名 。 如 果 列表 的 元 
素 为 列表 或 元 组 ， 就 会 将 多 个 列 组 合 到 一 起 再 进行 日 期 解析 工作 〈 例 
如 ， 日 期 /时 间 分 别 位 于 两 个 列 中 ) 

如 果 连 接 多 列 解析 日 期 ， 则 保持 参与 连接 的 列 。 默 认为 False。 

由 列 号 / 列 名 跟 函 数 之 间 的 映射 关系 组 成 的 字典 。 例 如 ，f{'foo': fj 会 对 
foo 列 的 所 有 值 应 用 函数 f 


当 解 析 有 歧义 的 日 期 时 ， 将 其 看 做 国际 格式 (例如 ，7/6/2012 一 June 
7, 2012) 。 默 认为 False 


用 于 解析 日 期 的 函数 
需要 读 取 的 行 数 (从 文件 开始 处 算 起 ) 
返回 一 个 TextParser 以 便 逐 块 读 取 文件 
文件 块 的 大 小 (用 于 迭代 ) 

需要 忽略 的 行 数 〈 从 文件 未 尾 处 算 起 ) 
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表 6-2: read_csv/read_table 函 数 的 参数 ( 续 ) 


参数 说 明 

verbose 打印 各 种 解析 器 输出 信息 ， 比 如 “ 非 数值 列 中 缺失 值 的 数量 ”等 

encoding 用 于 unicode 的 文本 编码 格式 。 例 如 ，“utf-8” 表 示 用 UTF-8 编 码 的 
文本 

squeeze 如 果 数 据 经 解析 后 仅 含 一 列 ， 则 返回 Series 


thousands 千 分 位 分 隔 符 ， 如 “,” 或 “.” 





逐 块 读 取 文 本 文件 


在 处 理 很 大 的 文件 时 ， 或 找 出 大 文件 中 的 参数 集 以 便于 后 续 处 理 时 ， 你 可 能 只 想 读 取 文 
件 的 一 小 部 分 或 逐 块 对 文件 进行 迭代 。 


In [871]: result = pd.read_csv('cho6/ex6.csv') 


In [872]: result 

Out[872]: 

<class 'pandas.core. frame.DataFrame’> 
Int64Index: 10000 entries, 0 to 9999 
Data columns: 


one 10000 non-null values 
two 10000 non-null values 
three 10000 non-null values 
four 10000 non-null values 
key 10000 non-null values 


dtypes: float64(4), object(1) 
如 果 只 想 读 取 几 行 (避免 读 取 整 个 文件 ) ,通过 nrows 进 行 指定 即 可 : 


In [873]: pd.read_csv('cho6/ex6.csv', nrows=5) 
Out[873]: 

one two three four key 
0 0.467976 -0.038649 -0.295344 -1.824726 
1 -0.358893 1.404453 0.704965 -0.200638 
2 -0.501840 0.659254 -0.421691 -0.057688 
3 0.204886 1.074134 1.388361 -0.982404 
4 0.354628 -0.133116 0.283763 -0.837063 


onamr 


要 逐 块 读 取 文 件 ， 需 要 设置 chunksize ( 行 数 ) : 
In [874]: chunker = pd.read_csv('cho6/ex6.csv', chunksize=1000) 


In [875]: chunker 
Out[875]: <pandas.io.parsers.TextParser at Ox8398150> 


Tead_csv 所 返回 的 这 个 TextParser 对 象 使 你 可 以 根据 chunksize 对 文件 进行 逐 块 达 代 。 比 
如 说 ， 我 们 可 以 迭代 处 理 ex6.csv， 将 值 计 数 聚 合 到 “key” 列 中 ， 如 下 所 示 : 
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chunker = pd.read_csv('cho6/ex6.csv'，chunksize=1000) 


tot = Series([]) 
for piece in chunker: 
tot = tot.add(piece['key'].value counts(), fill_ value=0) 


tot = tot.order(ascending=False) 
于 是 我 们 就 有 了 : 


In [877]: tot[:10] 
Out[877]: 
368 
364 
346 
343 
340 
338 
337 
335 
334 
330 


IxTTuUZOOrxm 


TextParser 还 有 一 个 get_chunk 方 法 ， 它 使 你 可 以 读 取 任 意 大 小 的 块 。 


将 数据 写 出 到 文本 格式 
数据 也 可 以 被 输出 为 分 隔 符 格 式 的 文本 。 我 们 再 来 看 看 之 前 读 过 的 一 个 CSV 文 件 : 
In [878]: data = pd.read_csv('cho6/ex5.csv') 


In [879]: data 


Out[879]: 

something a b c dmessage 
0 one 1 2 3 4 NaN 
1 two 5 6NaN 8 world 
全 three 9 10 11 12 foo 


利用 DataFrame 的 to_csv 方 法 ， 我 们 可 以 将 数据 写 到 一 个 以 逗号 分 隔 的 文件 中 : 
In [880]: data.to_csv('cho6/out.csv') 


In [881]: !cat cho6/out.csv 
,Something,a,b,c,d,message 
0,one,1,2,3.0,4, 
1,two, 5,6, ,8,world 
2,three,9,10,11.0,12,foo 


当然 ， 还 可 以 使 用 其 他 分 隔 符 (由 于 这 里 直接 写 出 到 sys.stdout， 所 以 仅仅 是 打印 出 文 
本 结果 而 已 ) : 
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In [882]: data.to_csv(sys.stdout, sep="|") 
|somethinglalblc|dlmessage 
Olone|1|213.014| 

1|twol5|6||8|world 
2|threel9|10|11.0|12|foo 


缺失 值 在 输出 结果 中 会 被 表示 为 空 字符 串 。 你 可 能 希望 将 其 表示 为 别 的 标记 值 : 


In [883]: data.to_csv(sys.stdout, na_rep="NULL') 
,something,a,b,c,d,message 

0,one,1,2,3.0,4,NULL 

1,two,5,6,NULL,8,world 

2,three,9,10,11.0,12,foo 


如 果 没 有 设置 其 他 选项 ， 则 会 写 出 行 和 列 的 标签 。 当 然 ， 它 们 也 都 可 以 被 禁用 ， 


In [884]: data.to_csv(sys.stdout, index=False, header=False) 
one,1,2,3.0,4, 

two,5,6, ,8,world 

three,9,10,11.0,12,foo 


此 外 ， 你 还 可 以 只 写 出 一 部 分 的 列 ， 并 以 你 指定 的 顺序 排列 : 


虽然 只 需 一 


In [885]: data.to_csv(sys.stdout, index=False, cols=['a’, 
asb,c 

1,2,3.0 

5,6, 





9,10,11.0 


Series 也 有 一 个 to_csv 方 法 : 


In [886]: dates = pd.date_range('1/1/2000'，periods=7) 


In [887]: ts = Series(np.arange(7), index=dates) 


In [888]: ts.to_csv('cho6/tseries.csv') 


In [889]: !cat cho6/tseries.csv 
2000-01-01 00:00:00,0 





2000-01-07 00:00:00,6 





点 整理 工作 (无 header 行 ， 第 一 列 作 索引 ) 就 能 用 read_csv 将 CSV 文 件 读 取 


为 Series， 但 还 有 一 个 更 为 方便 的 from_csv 方 法 : 


In [890]: Series.from_csv('cho6/tseries.csv'，parse_dates-True) 
out[89o] : 
2000-01-01 0 
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2000-01-02 
2000-01-03 
2000-01-04 
2000-01-05 
2000-01-06 
2000-01-07 


oupwNp 


更 多 信息 请 在 IPython 中 查看 to_csv 和 from_csv 的 文档 。 


手工 处 理 分 隔 符 格式 


大 部 分 存储 在 磁盘 上 的 表格 型 数据 都 能 用 pandas.read_tab1le 进 行 加载 。 然 而 ， 有 时 还 
是 需要 做 一 些 手工 处 理 。 由 于 接收 到 含有 畸形 行 的 文件 而 使 read_table 出 毛病 的 情况 并 


不 少见 。 为 了 说 明 这 些 基本 工具 ， 看 看 下 面 这 个 简单 的 CSV 文 件 : 


In [891]: !cat cho6/ex7.csv 
“an, "b", "ce" 

Ma 
2 3 4 





对 于 任何 单字 符 分 隔 符 文件 ， 可 以 直接 使 用 Python 内 置 的 csv 模 块 。 将 任意 已 打开 的 文件 


或 文件 型 的 对 象 传 给 csv.reader: 


import csv 
f = open('cho6/ex7.csv') 


reader = csv.reader(f) 
对 这 个 reader 进 行 和 迭代 将 会 为 每 行 产 生 一 个 元 组 音 放 (并 移 除了 所 有 的 引号 ) : 


In [893]: for line in reader: 
print line 
,ce] 
'31] 
» "3', "4'] 


现在 ， 为 了 使 数据 格式 合乎 要 求 ， 你 需要 对 其 做 一 些 整理 工作 : 








In [894]: lines = list(csv.reader(open('cho6/ex7.csv'))) 
In [895]: header, values = lines[0], lines[1:] 
In [896]: data dict = {h: v for h, v in zip(header, zip(*values))} 


In [897]: data_dict 
Out[897]: {a’: (41°, 4°), ‘b's (2°, "2°), ‘e's 《3 '3°)) 


译注 4: 很 明显 ， 这 里 得 到 的 结果 不 是 元 组 而 是 列表 。 
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CSV 文 件 的 形式 有 很 多 。 只 需 定义 csv.Dialect 的 一 个 子 类 即 可 定义 出 新 格式 (如 专门 的 
分 隔 符 、 字 符 串 引用 约定 、 行 结束 符 等 ) : 


class my_dialect(csv.Dialect): 
lineterminator = “\m 
delimiter = 
quotechar = 





reader = csv.reader(f, diaect=my_dialect) 

各 个 CSV 语 支 的 参数 也 可 以 关键 字 的 形式 提供 给 csv.reader， 而 无 需 定义 子 类 : 
reader = csv.reader(f, deliniter="|') 

可 用 的 选项 (csv.Dialect 的 属性 ) 及 其 功能 如 表 6-3 所 示 。 

表 6-3，CSV 语 支 选项 

参数 说 明 


delimiter 用 于 分 隔 字段 的 单字 符 字符 串 。 默 认为 “，” 

lineterminator ”用 于 写 操作 的 行 结束 符 ， 默 认为 “\\n”。 读 操作 将 忽略 此 选项 ， 它 能 
认 出 跨 平台 的 行 结 束 符 

quotechar 用 于 带 有 特殊 字符 (如 分 隔 符 ) 的 字段 的 引用 符号 。 默 认为 “"” 

quoting 引用 约定 。 可 选 值 包括 csv.QUOTE_ALL (引用 所 有 字段 ) 、csv. 
QUOTE_MINIMAL (只 引用 带 有 诸如 分 隔 符 之 类 特殊 字符 的 字段 ) 、 
csvQUOTE_NONNUMERIC 以 及 csvQUOTE_NON (不 引用 ) 。 完 整 信息 
请 参考 Python 的 文档 。 默 认为 QUOTE_MINIMAL 

skipinitialspace 忽略 分 隔 符 后 面 的 空白 符 。 默 认为 False 

doublequote “如何 处 理 字段 内 的 引用 符号 。 如 果 为 True， 则 双 写 。 完 整 信息 及 行为 
请 参见 在 线 文档 

escapechar 用 于 对 分 隔 符 进 行 转 义 的 字符 串 (如 果 quoting 被 设置 为 csv.QUOTE_ 
NONE 的 话 ) 。 默 认 禁 用 





注意 ， 对 于 那些 使 用 复杂 分 隔 符 或 多 字符 分 隔 符 的 文件 ， csv 模 块 就 无 能 为 力 了 。 这 种 情况 下 ， 你 
就 只 能 使 用 字符 串 的 split 方 法 或 正则 表达 式 方法 re.split 进 行 行 拆 分 和 其 他 整理 工作 了 。 





要 手工 输出 分 隔 符 文件 ， 你 可 以 使 用 csv.writer。 它 接受 一 个 已 打开 且 可 写 的 文件 对 象 
以 及 跟 csv.reader 相 同 的 那些 语 支 和 格式 化 选项 : 





with open( "mydata.csv’, 'w’) as f: 

writer = csv.writer(f, dialect-my dialect) 
writer.writerow(('one’ ，'three’)) 
writer.writerow(('1', '2', '3')) 
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writer.writerow(('4', '5', '6')) 
writer.writerow(('7', '8', '9')) 


JSON 数 据 
JSON (JavaScript Object Notation 的 简称 ) 已 经 成 为 通过 HTTP 请 求 在 Web 浏 览 器 和 其 他 


应 用 程序 之 间 发 送 数据 的 标准 格式 之 一 。 它 是 一 种 比 表格 型 文本 格式 (如 CSV) 灵活 得 
多 的 数据 格式 。 下 面 是 一 个 例子 : 





"United States", "Spain", "Germany"], 


"pet": null, 
"siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}， 


{"name": "Katie", "age": 33, "pet": "Cisco"}] 


bs 





除 其 空 值 nul1 和 一 些 其 他 的 细微 差别 (如 列表 末尾 不 允许 存在 多 余 的 逗号 ) 之 外 ，JSON 
非常 接近 于 有 效 的 Python 代码 。 基 本 类 型 有 对 象 (字典 ) 、 数 组 (列表) 、 字 符 串 、 数 
值 、 布 尔 值 以 及 null。 对 象 中 所 有 的 键 都 必须 是 字符 串 。 许 多 Python 库 都 可 以 读 写 JSON 
数据 。 我 将 使 用 json， 因 为 它 是 构建 于 Python 标准 库 中 的 。 通 过 json.loads 即 可 将 JSON 
字符 串 转换 成 Python 形式 : 


In [899]: import json 
In [900]: result = json.loads(obj) 


In [901]: result 

Out[901]: 

{u'name’: u'Wes', 

u'pet': None, 

u'places_lived': [u'United States’, u'Spain’, u'Germany'], 
u'siblings': [{u'age’: 25, u'name': u'Scott’, u'pet': u'Zuko’}, 
{u'age': 33, u'name': u'Katie’, u'pet’: u'Cisco'}]} 


相反 ，json.dumps 则 将 Python 对 象 转换 成 JSON 格 式 : 
In [902]: asjson = json.dumps(result) 


如 何 将 (一 个 或 一 组 ) JSON 对 象 转换 为 DataFrame 或 其 他 便于 分 析 的 数据 结构 就 由 你 决 
定 了 。 最 简单 方便 的 方式 是 : 向 DataFrame 构 造 器 传人 一 组 JSON 对 象 ， 并 选取 数据 字段 
的 子 集 下 5。 


In [903]: siblings = DataFrame(result["siblings']，columns=['name'，'age']) 





译注 5: 意思 是 说 可 以 选 一 部 分 字段 。 当 然 也 可 以 全 部 选 完 。 
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In [904]: siblings 
Out[904]: 
name age 
0 Scott 25 
1 Katie 33 


第 7 章 中 关于 USDA Food Database 的 那个 例子 进一步 讲解 了 JSON 数 据 的 读 取 和 处 理 ( 包 
括 伐 套 记录 ) 。 





注意 ， pandas 团 队 正 致力 于 为 pandas 添 加 原生 的 高 效 JSON 导 出 (to_json) 和 解码 (from_json) 
功能 。 不 过 目前 还 没 开发 完成 。 





XML 和 HTML: Web 信 息 收 集 

Python 有 许多 可 以 读 写 HTML 和 XML 格式 数据 的 库 。1xml (hrtp:Wixml.de) 就 是 其 中 之 
-， 它 能 够 高 效 且 可 靠 地 解析 大 文件 。lxml 有 多 个 编程 接口 。 首 先 我 要 用 1xml.html 处 理 
HTML， 然 后 再 用 lxml.objectify 做 一 些 XML 处 理 。 


许多 网 站 都 将 数据 放 到 HTML 表 格 中 以 便 在 浏览 器 中 查看 ， 但 不 能 以 一 种 更 易于 机 器 阅 
读 的 格式 (如 JSON、HTML 或 XML) 进行 下 载 。 我 发 现 Yahoo! Finance 的 股票 期 权 数 
据 就 是 这 样 。 可 能 你 对 这 种 数据 不 熟悉 : 期 权 是 指使 你 有 权 从 现在 开始 到 未 来 某 个 时 间 
(到 期 日 ) 内 以 某 个 特定 价格 (执行 价 ) 买 进 (看涨 期 权 ) 或 卖 出 (看跌 期 权 ) 某 公司 
股票 的 衍生 合约 。 人 们 的 看 涨 和 看 跌 期 权 交易 有 多 种 执行 价 和 到 期 日 ， 这 些 数据 都 可 以 
在 Yahoo! Finance 的 各 种 表格 中 找到 。 


首先 ， 找 到 你 希望 获取 数据 的 URL， 利 用 urllibz 将 其 打开 ， 然 后 用 lxml 解 析 得 到 的 数据 
流 ， 如 下 所 示 : 


from lxml.html import parse 
from urllibz import urlopen 


parsed = parse(urlopen('http://finance.yahoo.com/q/op?s=AAPL+0ptions')) 


doc = parsed.getroot() 


通过 这 个 对 象 ， 你 可 以 获取 特定 类 型 的 所 有 HTML 标 签 (tag) ， 比 如 含有 所 需 数据 的 
table 标 签 。 给 这 个 简单 的 例子 加 点 启发 性 ， 假 设 你 想得到 该 文档 中 所 有 的 URL 链 接 。 
HTML 中 的 链接 是 a 标签 。 使 用 文档 根 节点 的 findall 方 法 以 及 一 个 XPath (对 文档 的 “ 查 
询 ” 的 一 种 表示 手段 ) : 

In [906]: links = doc.findall(*.//a) 


In [907]: links[15:20] 
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out[9o7] : 

[<Element a at Ox6c488f0>, 
<Element a at Ox6c48950>, 
<Element a at Ox6c489b0>, 
<Element a at Ox6c48a10>, 
<Element a at Ox6c48a70>] 


但 这 些 是 表示 HTML 元 素 的 对 象 。 要 得 到 URL 和 链接 文本 ， 你 必须 使 用 各 对 象 的 get 方 法 
(针对 URL) 和 text_content 方 法 (针对 显示 文本 ) : 


In [908]: lnk = links[28] 


In [909]: lnk 
Out[909]: <Element a at Ox6c48dd0> 


In [910]: lnk.get('href’) 
Out[910]: ‘http://biz.yahoo. com/special.html" 


In [911]: lnk.text_content() 
Out[911]: “Special Editions’ 


因此 ， 编 写 下 面 这 条 列表 推导 式 (list comprehension) 即 可 获取 文档 中 的 全部 URL : 
In [912]: urls = [lnk.get('href’) for lnk in doc.findall('.//a')] 


In [913]: urls[-10:] 
Out[913]: 
['http://info.yahoo. com/privacy/us/yahoo/finance/details.html", 
‘http://info.yahoo.com/relevantads/", 
"http://docs.yahoo.com/info/terms/", 

"http://docs.yahoo. com/info/copyright/copyright.html’, 
://help.yahoo.com/1/us/yahoo/finance/forms_index.html', 
.com/1/us/yahoo/finance/quotes/fitadelay.html', 
.com/1/us/yahoo/finance/quotes/fitadelay.html', 











‘http://www.morningstar.com/"] 
现在 ， 从 文档 中 找 出 正确 表格 的 办 法 就 是 反复 试验 了 。 有 些 网 站 会 给 目标 表格 加 上 一 个 
id 属性 。 我 确定 有 两 个 分 别 放置 看 涨 数 据 和 看 跌 数据 的 表格 ; 

tables = doc.findall(".//table') 


calls = tables[9] 
puts = tables[13] 


每 个 表格 都 有 一 个 标题 行 ， 然 后 才 是 数据 行 : 
In [915]: rows = calls.findall('.//tr') 


对 于 标题 行 和 数据 行 ， 我 们 希望 获取 每 个 单元 格 内 的 文本 。 对 于 标题 行 ， 就 是 th 单元 
格 ， 而 对 于 数据 行 ， 则 是 td 单元 格 : 
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def _unpack(row, kind="td'): 
elts = row.findall('.//%s' % kind) 
return [val.text_content() for val in elts] 


这 样 ， 我 们 就 得 到 了 : 
In [917]: _unpack(rows[0], kind="th’) 
Out[917]: T'Strike’, 'Symbol’, ‘Last’, 'Chg’, 'Bid’, ‘Ask’, 'Vol', ‘Open Int'] 


In [918]: _unpack(rows[1]，kind='td') 
Out[918] : 

[ "295.00 

"AAPL120818C00295000" , 

"310.40'， 


现在 ， 把 所 有 步骤 结合 起 来 ， 将 数据 转换 为 一 个 DataFrame。 由 于 数值 型 数据 仍然 是 字 
符 串 格式 ， 所 以 我 们 希望 将 部 分 列 (可 能 不 是 全 部 ) 转换 为 浮 点 数 格式 。 虽 然 你 可 以 手 
工 实现 该 功能 ， 但 是 pandas 恰 好 就 有 一 个 TextParser 类 可 用 于 自动 类 型 转换 (read_csv 
和 其 他 解析 函数 其 实在 内 部 都 用 到 了 它 ) : 
from pandas.io.parsers import Textparser 
def parse_options data(table): 
rows = table.findall('.//tr') 
header = _unpack(rows[0], kind="th') 


data = [_unpack(r) for r in rows[1:]] 
return TextParser(data, names=header).get_chunk() 


最 后 ， 我 对 那 两 个 lxml 表 格 对 象 调用 该 解析 函数 并 得 到 最 终 的 DataFrame: 
In [920]: call data = parse_options data(calls) 
In [921]: put_data = parse_options_data(puts) 


In [922]: call_data[:10] 


Out[922]: 

Strike Symbol Last Chg Bid Ask Vol Open Int 
0 295 AAPL120818C00295000 310.40 0.0 289.80 290.80 1 169 
1 300 AAPL120818C00300000 277.10 1.7 284.80 285.60 2 478 
2 305 AAPL120818C00305000 300.97 0.0 279.80 280.80 10 316 
3 310 AAPL120818C00310000 267.05 0.0 274.80 275.65 6 239 
4 315 AAPL120818C00315000 296.54 0.0 269.80 270.80 22 88 
5 320 AAPL120818C00320000 291.63 0.0 264.80 265.80 96 173 
6 325 AAPL120818C00325000 261.34 0.0 259.80 260.80 N/A 108 
7 330 AAPL120818C00330000 230.25 0.0 254.80 255.80 N/A 21 
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8 335 AAPL120818C00335000 266.03 0.0 249.80 250.65 4 46 
9 340 AAPL120818C00340000 272.58 0.0 244.80 245.80 4 30 


利用 lxml.objectify 解 析 XML 


XML (Extensible Markup Language) 是 另 一 种 常见 的 支持 分 层 、 伐 套数 据 以 及 元 数据 的 
结构 化 数据 格式 。 本 书 所 使 用 的 这 些 文件 实际 上 来 自 于 一 个 很 大 的 XML 文档 。 


之 前 ， 我 介绍 了 lxml 库 及 其 xm1.htm]1 接 口 。 这 里 我 将 介绍 另 一 个 用 于 操作 XML 数据 的 
接口 ， 即 1xml.objectify。 


纽约 大 都 会 运输 署 (Metropolitan Transportation Authority，MTA) 发 布 了 一 些 有 关 其 公 
交 和 列车 服务 的 数据 资料 (hiip://www.mra.info/developers/download.html) 。 这 里 ， 我 
们 将 看 看 包含 在 一 组 XML 文件 中 的 运行 情况 数据 。 每 项 列车 或 公交 服务 都 有 各 自 的 文件 

(如 Metro-North Railroad 的 文件 是 Performance_MNR.xm] 评 广 5) ， 其 中 每 条 XML 记录 就 
是 一 条 月 度数 据 ， 如 下 所 示 : 


<INDICATOR> 

<INDICATOR_SEQ»>373889</INDICATOR_SEQ> 

<PARENT_SEQ></PARENT_SEQ> 

<AGENCY_NAME>Metro-North Railroad</AGENCY_NAME> 
<INDICATOR_NAME>Escalator Availability</INDICATOR_NAME> 
<DESCRIPTION>Percent of the time that escalators are operational 
systemwide, The availability rate is based on physical observations performed the 
morning of regular business days only. This is a new indicator the agency began 
reporting in 2009.</DESCRIPTION> 

<PERIOD_YEAR>2011¢/PERIOD_YEAR> 

<PERIOD_MONTH>12</PERIOD_MONTH> 

<CATEGORY» Service Indicators¢/CATEGORY> 

<FREQUENCY>M< /FREQUENCY> 

<DESIRED_CHANGE>U< /DESIRED_CHANGE> 
<INDICATOR_UNIT>%</INDICATOR_UNIT> 
<DECIMAL_PLACES>1¢/DECIMAL_PLACES> 
<YTD_TARGET>97.00¢</YTD_TARGET> 

<YTD_ACTUAL></YTD_ACTUAL> 

<MONTHLY_TARGET>97.00</MONTHLY_TARGET> 

<MONTHLY_ACTUAL>< /MONTHLY_ACTUAL> 

</INDICATOR> 


我 们 先 用 1xml.objectify 解 析 该 文件 ， 然 
引用 ， 





后 通过 getroot 得 到 该 XML 文件 的 根 节点 的 


from lxml import objectify 


path = ‘Performance_MNR.xml" 
parsed = objectify.parse(open(path)) 
Toot = parsed.getroot() 


译注 6: 该 文件 已 经 更 名 ， 但 还 是 可 以 下 载 到 相关 的 文件 。 
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root .INDICATOR 返 回 一 个 用 于 产生 各 个 <INDICATOR> XML 元 素 的 生成 器 。 对 于 每 条 记录 ， 
我 们 可 以 用 标记 名 (如 YTD_ACTUAL) 和 数据 值 填充 一 个 字典 (排除 几 个 标记 ) 评 让 7， 


data = [] 
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ', 'DESIRED CHANGE', "DECIMAL PLACES'] 


for elt in root.INDICATOR: 
el_data = {} 
for child in elt.getchildren(): 
if child.tag in skip_fields: 
continue 
el_data[child.tag] = child.pyval 
data.append(el_data) 


最 后 ， 将 这 组 字典 转换 为 一 个 DataFrame: 


In [927]: perf = DataFrame(data) 


In [928]: 
Out[928]: 

<class ‘pandas.core. frame.DataFrame'> 
Int64Index: 648 entries, 0 to 647 
Data columns: 

AGENCY_NAME 648 non-null values 
CATEGORY 648 non-null values 
DESCRIPTION 648 non-null values 
FREQUENCY 648 non-null values 
INDICATOR_NAME 648 non-null values 
INDICATOR_UNIT 648 non-null values 
MONTHLY_ACTUAL 648 non-null values 
MONTHLY_TARGET 648 non-null values 
PERIOD_MONTH 648 non-null values 
PERIOD_YEAR 648 non-null values 
YTD_ACTUAL 648 non-null values 
YTD_TARGET 648 non-null values 
dtypes: int64(2), object(10) 





perf 


Empty DataFrame 
Columns: array([], dtype=int64) 
Index: array([], dtype=int64) 


XML 数 据 可 以 比 本 例 复杂 得 多 。 每 个 标记 都 可 以 有 元 数据 。 看 看 下 面 这 个 HTML 的 链接 
标记 ( 它 也 算是 一 段 有 效 的 XML) : 


from StringIO import StringI0 
tag = '<a href="http://www.google.com">Googlec/a>， 


root = objectify.parse(StringIO(tag)).getroot() 


: 由 于 数据 文件 格式 已 经 改变 ， 所 以 这 段 代码 不 能 直接 执行 了 ， 需 要 按照 新 的 数据 格式 稍微 
调整 一 下 ， 不 过 也 不 麻烦 ， 留 给 读者 当做 练习 吧 。 
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现在 就 可 以 访问 链接 文本 或 标记 中 的 任何 字段 了 (如 href) : 


In [930]: 
Out[930]: 


In [931]: 
Out[931]: 


In [932]: 
Out[932]: 


root 
<Element a at Ox88bd4bo> 


root .get('href') 
"http:/V/www.google.com 


root .text 
"Google'" 


二 进 制 数据 格式 
实现 数据 的 二 进 制 格式 存储 最 简单 的 办 法 之 一 是 使 用 Python 内 置 的 pickle 序 列 化 。 为 了 使 
用 方便 ，pandas 对 象 都 有 一 个 用 于 将 数据 以 pickle 形 式 保存 到 磁盘 上 的 save 方 法 : 


In [933]: frame = pd.read_csv('cho6/exl.csv') 
In [934]: frame 
Out[934]: 
a b c dmessage 
01 2 3 4 hello 
15 6 7 8 world 
2910 11 12 foo 
In [935]: frame.save('ch06/frame_pickle') 


你 可 以 通过 另 一 个 也 很 好 用 的 pickle 函 数 pandas .10ad 将 数据 读 回 到 Python: 


In [936]: pd.load('cho6/frame_pickle') 


Out[936]: 

a b c dmessage 
01 2 3 4 hello 
15 6 7 8 world 
291011 12 foo 


警告 ，pickle 仅 建议 用 于 短期 存储 格式 。 其 原因 是 很 难保 证 该 格式 永远 是 稳定 的 ， 今 天 pickle 的 对 
象 可 能 无 法 被 后 续 版 本 的 库 unpickle 出 来 。 虽 然 我 尽力 保证 这 种 事情 不 会 发 生 在 pandas 中 ， 
但 是 今后 的 某 个 时 候 说 不 定 还 是 得 “打破 ”该 pickle 格 式 。 








使 用 HDF5 格 式 

很 多 工具 都 能 实现 高 效 读 写 磁盘 上 以 二 进 制 格式 存储 的 科学 数据 。HDF5 就 是 其 中 一 个 
流行 的 工业 级 库 ， 它 是 一 个 C 库 ， 带 有 许多 语言 的 接口 ， 如 Java、Python 和 MATLAB 
等 。HDF5 中 的 HDF 指 的 是 层次 型 数据 格式 (hierarchical data format) 。 每 个 HDF5 文 件 
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都 含有 一 个 文件 系统 式 的 节点 结构 ， 它 使 你 能 够 存储 多 个 数据 集 并 支持 元 数据 。 与 其 他 
简单 格式 相 比 ，HDF5 支 持 多 种 压缩 器 的 即时 压缩 ， 还 能 更 高 效 地 存储 重复 模式 数据 。 
对 于 那些 非常 大 的 无 法 直接 放 入 内 存 的 数据 集 ，HDF5 就 是 不 错 的 选择 ， 因 为 它 可 以 高 
效 地 分 块 读 写 。 


Python 中 的 HDF5 库 有 两 个 接口 ( 即 PyTables 和 h5py) ， 它 们 各 自 采取 了 不 同 的 问题 解决 
方式 。h5py 提 供 了 一 种 直接 而 高 级 的 HDF5 API 访 问 接口 ， 而 PyTables 则 抽象 了 HDF5 的 
许多 细节 以 提供 多 种 灵活 的 数据 容器 、 表 索引 、 查 询 功能 以 及 对 核 外 计算 技术 (out-of- 
core computation) 的 某 些 支持 。 
pandas 有 一 个 最 小 化 的 类 似 于 字典 的 HDFStore 类 ， 它 通过 PyTables 存 储 pandas 对 象 : 

In [937]: store = pd.HDFStore("mydata.h5') 

In [938]: store['obj1'] = frame 

In [939]: store['objl_col'] = frame['a'] 

In [940]: store 

Out[940]: 

<class "pandas.io.pytables.HDFStore'> 

File path: mydata.h5 


obj1 DataFrame 
objl_col Series 


HDF5 文 件 中 的 对 象 可 以 通过 与 字典 一 样 的 方式 进行 获取 : 


In [941]: store['obj1°] 


Out[941]: 

a b ¢ dmessage 
01 2 3 4 hello 
15 6 7 8 world 
291011 12 foo 


如 果 需 要 处 理 海量 数据 ， 我 建议 你 好 好 研究 一 下 PyTables 和 h5py， 看 看 它们 能 满足 你 的 
哪些 需求 。 由 于 许多 数据 分 析 问 题 都 是 10 窗 集 型 (而 不 是 CPU 窗 集 型 )， 利 用 HDF5 这 
样 的 工具 能 显著 提升 应 用 程序 的 效率 。 





警告 。 HDF5 不 是 数据 库 。 它 最 适合 用 作 “ 一 次 写 多 次 读 ” 的 数据 集 。 虽 然 数据 可 以 在 任何 时 候 被 
添加 到 文件 中 ， 但 如 果 同 时 发 生 多 个 写 操作 ， 文 件 就 可 能 会 被 破坏 。 





读 取 Microsoft Excel 文 件 
pandas 的 ExcelFile 类 支持 读 取 存 储 在 Excel 2003 (或 更 高 版 本 ) 中 的 表格 型 数据 。 由 
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于 ExcelFile 用 到 了 xlrd 和 openpyx1 包 ， 所 以 你 先 得 安装 它们 才 行 。 通 过 传 入 一 个 x1s 或 


xlsx 文 件 的 路 径 即 可 创建 一 个 ExcelFile 实 例 : 


xls_file = pd.ExcelFile('data.xls') 


存放 在 某 个 工作 表 中 的 数据 可 以 通过 parse 读 取 到 DataFrame 中 : 


table = xls_fle.parse('Sheet1') 


使 用 HTML 和 Web API 


许多 网 站 都 有 一 些 通过 JSON 或 其 他 格式 提供 数据 的 公共 API。 通 过 Python 访问 这 些 API 
的 办 法 有 不 少 。 一 个 简单 易 用 的 办 法 (推荐) 是 requests 包 (http://docs.python-requests. 
org) 。 为 了 在 Twitter 上 搜索 “python pandas”， 我 们 可 以 发 送 一 个 HTTP GET 请 求 ， 如 


下 所 示 : 


In [944]: import requests 


In [945]: url = ‘http://search.twitter.com/search.json?q=python%20pandas" 


In [946]: resp = requests.get(url) 


In [947]: resp 
Out[947]: <Response [200]> 


Response 对 象 的 text 属 性 含有 GET 请 求 的 内 容 。 许 多 Web API 返 回 的 都 是 JSON 字 符 串 ， 我 


们 必须 将 其 加 载 到 一 个 Python 对 象 中 : 


In [948]: import json 


In [949]: data = json.loads(resp.text) 


In [950]: data.keys() 
Out[950] : 
[unext_page'， 
u'completed_in', 
u'max_id_str', 
u'since_id_str', 
u'refresh_url’, 
u'results’, 
u'since_id', 
u'results_per_page’, 
u'query', 
u'max_id", 

u'page’] 








响应 结果 中 的 results 字 段 含 有 一 组 tweet， 每 条 tweet 被 表示 为 一 个 Python 字典 ， 如 下 所 


不 : 
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{u'created at': u'Mon, 25 Jun 2012 17:50:33 +0000 ， 
u'from_user': u'wesmckinn", 

u'from user_id': 115494880, 

u'from user_id_str': u'115494880", 
u'from_user_name': u'Wes McKinney ， 

u'geo': None, 

u'id': 217313849177686018, 

u'id_str': u'217313849177686018", 
uiso_language_code': u'pt', 

u'metadata': {u'result type': u'recent'}, 
u'source': u'ca href="http://twitter.com/">web</a>', 
u'text': u'Lunchtime pandas-fu http://t.co/SITOxZZQ #pydata'， 
u'to_user': None, 

u'to_user_id': 0, 

u'to_user_id_str': u'0', 

u'to_user_name': None} 











我 们 用 一 个 列表 定义 出 感 兴趣 的 tweet 字 段 ， 然 后 将 results 列 表 传 给 DataFrame: 
In [951]: tweet fields = ['created at', ‘from user', "id', 'text'] 
In [952]: tweets = DataFrame(data[ 'results'], columns=tweet_fields) 


In [953]: tweets 

Out[953]: 

<class "pandas.core.frame.DataFrame'> 
Int64Index: 15 entries, 0 to 14 

Data columns: 

created_at 15 non-null values 


from_user 15 non-null values 
id 15 non-null values 
text 15 non-null values 


5 
dtypes: int64(1)，object(3) 
现在 ，DataFrame 中 的 每 一 行 就 有 了 来 自 一 条 tweet 的 数据 : 


In [121]: tweets.ix[7] 


Out[121] : 

created_at Thu, 23 Jul 2012 09:54:00 +0000 
from_user deblike 
id 227419585803059201 
text pandas: powerful Python data analysis toolkit 
Name: 7 


要 想 能 够 直接 得 到 便于 分 析 的 DataFrame 对 象 ， 只 需 再 多 费 些 精力 创建 出 对 常见 Web API 
的 更 高 级 接口 即 可 。 


使 用 数据 库 


在 许多 应 用 中 ， 数 据 很 少 取 自 文本 文件 ， 因 为 用 这 种 方式 存储 大 量 数据 很 低 效 。 基 于 
SQL 的 关系 型 数据 库 (如 SQL Server、PostgreSQL 和 MySQL 等 ) 使 用 非常 广泛 ， 此 外 还 
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有 一 些 非 SQL ( 即 所 谓 的 NoSCL) 型 数据 库 也 变 得 非常 流行 。 数 据 库 的 选择 通常 取决 于 
性 能 、 数 据 完 整 性 以 及 应 用 程序 的 伸缩 性 需求 。 


将 数据 从 SQL 加 载 到 DataFrame 的 过 程 很 简单 ， 此 外 pandas 还 有 一 些 能 够 简化 该 过 程 的 函 
数 。 例 如 ， 我 将 使 用 一 款 嵌入 式 的 SQLite 数 据 库 (通过 Python 内 置 的 sqlite3 驱 动 器 ) : 


import sqlite3 


query = """ 

CREATE TABLE test 

(a VARCHAR(20), b VARCHAR(20), 

c REAL, d INTEGER 

);""" 

con = sqlite3.connect(' :memory:') 
con.execute(query) 

con.commit() 


然后 插入 几 行 数据 : 


data = [('Atlanta', 'Georgia’, 1.25, 6), 
("Tallahassee’, 'Florida’, 2.6, 3), 
(‘Sacramento' , 'California’, 1.7, 5)] 

stmt = "INSERT INTO test VALUES(?, ?, ?, ?)" 


con.executenany(stmt, data) 
con.commit() 


从 表 中 选取 数据 时 ， 大 部 分 Python SQL 驱动 器 (PyODBC、psycopg2、MySQLdb、 
pymssql 等 ) 都 会 返回 一 个 元 组 列表 : 


In [956]: cursor = con.execute('select * from test') 
In [957]: rows = cursor.fetchall() 


In [958]: rows 

Out[958]: 

[(u'Atlanta', u'Georgia’, 1.25, 6), 
(u'Tallahassee', u'Florida', 2.6, 3), 
(u'Sacramento', u'California', 1.7, 5)] 


你 可 以 将 这 个 元 组 列表 传 给 DataFrame 的 构造 器 ， 但 还 需要 列 名 (位 于 游标 的 
description 属 性 中 ) : 


In [959]: cursor.description 

Out[959] : 
(("a'，NMone，None，None，NMone，None，None)， 
('b', None, None, None, None, None, None), 
('c', None, None, None, None, None, None), 
('d', None, None, None, None, None, None)) 
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In [960]: DataFrame(rows, columns=zip(*cursor.description)[0]) 


Out[960]: 

a b cd 
0 Atlanta Georgia 1.25 6 
1 Tallahassee Florida 2.60 3 
2 Sacramento California 1.70 5 


这 种 数据 规整 操作 相当 多 ， 你 肯定 不 想 每 查 一 次 数据 库 就 重 写 一 次 。pandas 有 一 个 可 以 
简化 该 过 程 的 read_frame 函 数位 于 pandas.io.sql 模 块 ) 。 只 需 传 和 人 select 语句 和 连接 
对 象 即 可 : 

In [961]: import pandas.io.sql as sql 


In [962]: sql.read frame('select * from test'，con) 


out[962] : 

a b cd 
0 Atlanta Georgia 1.25 6 
1 Tallahassee Florida 2.60 3 
2 Sacramento California 1.70 5 


存 取 MongoDB 中 的 数据 
NoSQL 数 据 库 有 许多 不 同 的 形式 。 有 些 是 简单 的 字典 式 键 值 对 存储 (如 BerkeleyDB 和 
Tokyo Cabinet) ， 另 一 些 则 是 基于 文档 的 (其 中 的 基本 单元 是 字典 型 的 对 象 ) 。 本 例 
选用 的 是 MongoDB (http://mongodb.org) 。 我 先 在 自己 的 电脑 上 启动 一 个 MongoDB 实 
例 ， 然 后 用 pymongo (MongoDB 的 官方 驱动 器 ) 通过 默认 端口 进行 连接 : 

import pynmongo 

con = pymongo.Connection('localhost', port=27017) 
存储 在 MongoDB 中 的 文档 被 组 织 在 数据 库 的 集合 (collection) 评 计 8 中。MongoDB 服 务 
器 的 每 个 运行 实例 可 以 有 多 个 数据 库 ， 而 每 个 数据 库 又 可 以 有 多 个 集合 。 假 设 你 想 保存 
之 前 通过 Twitter API 获 取 的 数据 。 首 先 ， 我 可 以 访问 tweets 集 合 (暂时 还 是 空 的 ) : 


tweets = con.db.tweets 


然后 ， 我 将 那 组 tweet 加 载 进 来 并 通过 tweets .save (用 于 将 Python 字典 写 人 MongoDB) 
逐个 存 人 集合 中 : 

import requests，json 

url = "http://search.twitter。com/search.json?q-python%20pandas， 

data = json.loads(requests.get(url).text) 

for tweet in data['results']: 


tweets.save(tweet) 


译注 8: 如 果实 在 不 明白 ， 可 直接 想象 成 表 。 
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现在 ， 如 果 我 想 从 该 集合 中 取出 我 自己 发 的 tweet (如 果 有 的 话 ) ， 可 以 用 下 面 的 代码 对 
集合 进行 查询 : 


cursor = tweets.find({'from user': ‘wesmckinn’}) 


返回 的 游标 是 一 个 迭代 器 ， 它 可 以 为 每 个 文档 产生 一 个 字典 。 跟 之 前 一 样 ， 我 可 以 将 其 
转换 为 一 个 DataFrame。 此 外 ， 还 可 以 只 获取 各 tweet 的 部 分 字段 : 


tweet fields = ['created_at', 'from user', "id', ‘text'] 
result = DataFrane(list(cursor), columns=tweet_felds) 
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第 7 章 
数据 规整 化 ; 清理 、 转 换 、 
合并 、 重 逆 





数据 分 析 和 建 模 方面 的 大 量 编程 工作 都 是 用 在 数据 准备 上 的 : 加载、 清理 、 转 换 以 及 重 
塑 。 有 时 候 ， 存 放 在 文件 或 数据 库 中 的 数据 并 不 能 满足 你 的 数据 处 理应 用 的 要 求 。 许 
多 人 都 选择 使 用 通用 编程 语言 (如 Python、Perl、R 或 Java) 或 UNIX 文 本 处 理工 具 (如 
sed 或 awk) 对 数据 格式 进行 专门 处 理 。 幸 运 的 是 ，pandas 和 Python 标准 库 提 供 了 一 组 高 
级 的 、 灵 活 的 、 高 效 的 核心 函数 和 算法 ， 它 们 使 你 能 够 轻松 地 将 数据 规整 化 为 正确 的 形 
式 。 

如 果 你 发 现 了 一 种 本 书 或 pandas 库 中 没有 的 数据 操作 方式 ， 请 尽管 在 邮件 列表 或 GitHub 
网 站 上 提出 。 实 际 上 ，pandas 的 许多 设计 和 实现 都 是 由 真实 应 用 的 需求 所 驱动 的 。 


合并 数据 集 
pandas 对 象 中 的 数据 可 以 通过 一 些 内 置 的 方式 进行 合并 ， 


* ”pandas.merge 可 根据 一 个 或 多 个 键 将 不 同 DataFrame 中 的 行 连接 起 来 。SQL 或 其 他 
关系 型 数据 库 的 用 户 对 此 应 该 会 比较 熟悉 ， 因 为 它 实现 的 就 是 数据 库 的 连接 操作 。 

。 “pandas.concat 可 以 沿 着 一 条 轴 将 多 个 对 象 堆 和 到 一 起 。 

， ”实例 方法 combine_first 可 以 将 重复 数据 编 接 在 一 起 ， 用 一 个 对 象 中 的 值 填充 另 一 个 
对 象 中 的 缺失 值 。 评 注 ! 

我 将 分 别 对 它们 进行 讲解 ， 并 给 出 一 些 例子 。 本 书 剩余 部 分 的 示例 中 将 经 常用 到 它们 。 


译注 1: 通俗 来 说 ， 差 不 多 就 是 数据 库 的 全 外 连接 (注意 “差不多 ”和 “全 外 连接 ”这 两 个 词 ) 。 
向 单 地 说 ， 就 是 先 从 第 一 个 对 象 中 选 值 ，- 不 行 哉 再 去 第 二 个 对 象 中 选 值 。 
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数据 库 风 格 的 DataFrame 合 并 
数据 集 的 合并 (merge) 或 连接 (join) 运算 是 通过 一 个 或 多 个 键 将 行 链接 起 来 的 。 这 些 
运算 是 关系 型 数据 库 的 核心 。pandas 的 merge 函 数 是 对 数据 应 用 这 些 算法 的 主要 切入 点 。 


我 们 以 一 个 简单 的 例子 开始 : 


In [15]: df1 = DataFrame({'key’: [bb ‘a’, ‘ec’, a’, ‘a’, ‘b'], 
及 三 'datal': range(7)}) 





In [16]: df2 = DataFrame({'key’: ['a’, 'b', 'd'], 
sv ‘data2': range(3)}) 


In [17]: df1 

Out[17]: 

datal ke 
0 


mmwPwnwpe 
mwmPewnmn 


Yy 
b 
b 
a 
c 
a 
a 
b 
2 


In [18]: df 

out[18] : 
data2 key 

0 0 a 


这 是 一 种 多 对 一 的 合并 。df1 中 的 数据 有 多 个 被 标记 为 a 和 b 的 行 ， 而 df2 中 key 列 的 每 个 值 
则 仅 对 应 一 行 。 对 这 些 对 象 调用 merge 即 可 得 到 : 


In [19]: pd.nerge(df1, df2) 


Out[19]: 

datal key data2 
0 2 a 0 
1 4 a 0 
2 5 a 0 
3 ob 1 
4 1 b 1 
5 6 b 1 


注意 ， 我 并 没有 指明 要 用 哪个 列 进行 连接 。 如 果 没 有 指定 ，merge 就 会 将 重 登 列 的 列 名 
当做 键 。 不 过 ， 最 好 显 式 指定 一 下 : 


In [20]: pd.merge(df1, df2, on="key') 


Out[20]: 

datal key data2 
0 3 a 0 
1 4 a 0 
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mw 
anpow 
goon 
Pppo 


如 果 两 个 对 象 的 列 名 不 同 ， 也 可 以 分 别 进行 指定 : 


In Ba: df3 = DataFrame({'lkey’: ['b’, 'b’, ‘a’, ca ‘a’, ‘b'], 
"datal': range(7)}) 


In [22]: df4 = DataFrame({'rkey': ['a’, 'b', 'd'], 
"data2': range(3)}) 


In [23]: pd.merge(df3, df4, left_on='lkey’, right_on='rkey') 
Out[23]: 

ee lkey data2 rkey 
a 


wpPwnpoe 
morous 
cooog 
Phppooo 
soooug 


可 能 你 已 经 注意 到 了 ， 结 果 里 面 c 和 d 以 及 与 之 相关 的 数据 消失 了 。 上 默认 情况 下 ,merge 
做 的 是 “inner” 连 接 ， 结 果 中 的 键 是 交集 。 其 他 方式 还 有 “1left”、“right” 以 及 
“outer”。 外 连接 求 取 的 是 键 的 并 集 ， 组 合 了 左 连接 和 右 连接 的 效果 : 


In [24]: pd.merge(df1，df2，how='outer') 


Out[24]: 

datal key data2 
0 2 a 0 
1 4 a 0 
4 5 a 0 
3 0 b 1 
4 1 b 1 
5 6 b 1 
6 3 c NaN 
7 NaN d 2 


多 对 多 的 合并 操作 非常 简单 ， 无 需 额 外 的 工作 。 如 下 所 示 ; 


In [25]: df1 = DataFrame({"key': ['"b 'b’, ‘a’, ‘c’, ‘a’, 'b'], 
a 'datal': range(6)}) 


In ba]: df2 = DataFrame({'key’: ['a’, 'b’, ‘a’, ‘b’, 'd'], 
全 "data2': range(5)}) 


In [27]: dfl 
out[27]: 
datal key 
0 0 b 
多 -| 





wu 
ww 


5 
In [28]: df: 


out[28]: 


a 
< 
a 
b 
2 


data2 key 


0 


wpe 


1 
3 
4 


4 
In [29]: pd 


Out[29]: 


aovyoo 


datal key data2 


Poeme~vaowewuno 


0 


2 


wwmwmpPpeomemen 


a 


noooooooog 


兰 wpwpwnpuonwo 


.merge(df1, df2, on='key', how='left') 


多 对 多 连接 产生 的 是 行 的 笛 卡 尔 积 。 由 于 左边 的 DataFrame 有 3 个 “b” 行 ， 右 边 的 有 2 
个 ， 所 以 最 终结 果 中 就 有 6 个 “b” 行 。 连 接 方式 只 影响 出 现在 结果 中 的 键 : 


In [30]: pd.merge(df1, df2, how="inner') 


Out[30]: 


datal key data2 


3 


wovanpwNpo 
uurriooppN 


a 


vooooooog 


wrwprwprNoNo 


要 根据 多 个 键 进行 合并 ， 传 人 一 个 由 列 名 组 成 的 列表 即 可 : 


In [31]: 


In [32]: 


left = DataFrame({"keyl': ['foo', ‘foo', ‘bar’], 


“key2°: [‘one’, ‘two', ‘one’], 
"val': [1, 2, 3]}) 


right = DataFrame({'key1': ['foo’, 'foo', ‘bar’, ‘bar'], 


“key2': [one’, ‘one', ‘one’, ‘two'], 
‘rval': [4, 5, 6, 7]}) 
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In [33]: pd.merge(left, right, on=['key1', 'key2'], how='outer') 


Out[33]: 

key1 key2 lval rval 
0 bar one 3 6 
1 bar two NaN 7 
2 foo one 3 4 
3 foo one 1 5 
4 foo two 2 NaN 


结果 中 会 出 现 哪些 键 组 合 取决 于 所 选 的 合并 方式 ， 你 可 以 这 样 来 理解 : 多 个 键 形成 一 系 
列 元 组 ， 并 将 其 当做 单个 连接 键 (当然 ， 实 际 上 并 不 是 这 么 回 事 ) 。 


警告 ， 在 进行 列 一 列 连 接 时 ，DataFrame 对 象 中 的 索引 会 被 丢弃。 





对 于 合并 运算 需要 考虑 的 最 后 一 个 问题 是 对 重复 列 名 的 处 理 。 虽 然 你 可 以 手工 处 理 列 
名 重合 的 问题 ( 稍 后 将 会 介绍 如 何 重 命名 轴 标 签 ) ， 但 merge 有 一 个 更 实用 的 suffixes 选 
项 ， 用 于 指定 附加 到 左右 两 个 DataFrame 对 象 的 重合 列 名 上 的 字符 串 : 


In [34]: pd.merge(left, right, on='key1') 

Out[34]: 

key1 key2 x lval key2 y rval 
3 


In [35]: pd.merge(left, right, on='key1', suffixes=('_left’, '_right')) 


0 bar one one 6 
1 bar one 3 two A 
2 foo one 1 one 4 
3 foo one 1 one 5 
4 foo two 2 one 4 
5 foo two 2 one 5 
Out[35]: 

key1 key2 left lval key2 right rval 
0 bar one 3 one 6 
1 bar one 3 two 7 
2 foo one 1 one 4 
3 foo one 和 one 5 
4 foo two 2 one 4 
5 foo two 2 one 要 


merge 的 参数 请 参见 表 7-1。 索 引 上 的 连接 将 在 下 一 节 中 讲解 。 
表 7-1: merge 函 数 的 参数 








参数 说 明 

left 参与 合并 的 左 侧 DataFrame 

right 参与 合并 的 右 侧 DataFrame 

how “inner”、“outer”、“left”、“right” 其 中 之 一 。 默 认为 
inner” 
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表 7-1: merge 函 数 的 参数 ( 续 ) 


参数 说 明 

on 用 于 连接 的 列 名 。 必 须 存在 于 左右 两 个 DataFrame 对 象 中 。 如 果 未 指 
定 ， 且 其 他 连接 键 也 未 指定 ， 则 以 left 和 right 列 名 的 交集 作为 连接 键 

left_on 左 侧 DataFrame 中 用 作 连 接 键 的 列 

right_on 右 侧 DataFrame 中 用 作 连 接 键 的 列 


left_index 将 左 侧 的 行 索引 用 作 其 连接 键 
right_index 类 似 于 left_index 


sort 根据 连接 键 对 合并 后 的 数据 进行 排序 ， 默 认为 True。 有 时 在 处 理 大 数 


据 集 时 ， 禁 用 该 选项 可 获得 更 好 的 性 能 


suffixes 字符 串 值 元 组 ， 用 于 追加 到 重奏 列 名 的 末尾 ， 默 认为 (_x， '_y')。 例 
如 ， 如 果 左 右 两 个 DataFrame 对 象 都 有 “data”， 则 结果 中 就 会 出 现 


“data_x” 和 “data_y” 


copy 设置 为 False， 可 以 在 某 些 特 殊 情况 下 避免 将 数据 复制 到 结果 数据 结构 


中 。 默 认 总 是 复制 





索引 上 的 合并 


有 时 候 ，DataFrame 中 的 连接 键 位 于 其 索引 中 。 在 这 种 情况 下 ， 你 可 以 传人 left_ 


index=True 或 right_index=True (或 两 个 都 传 ) 以 说 明 索 引 应 该 被 用 作 连 接 键 : 


In [36]: left1 = DataFrame({'key': ['a’, ‘b’, ‘a’, ‘a’, ‘b', 'c'], 
‘ob value': range(6)}) 
In [37]: right1 = DataFrame({'group_val’: [3.5, 7]}, index=['a’, 'b']) 
In [38]: left1 
Out[38]: 
key value 
a 





punNpo 


b 
a 
a 
b 


到 十 5 

In [39]: right1 

Out[39]: 
group_val 

a 3.5 

b 7.0 


In [40]: pd.merge(left1, right1, left on='key', right index=True) 
Out[40]: 
key value group_val 
0 a 0 3.5 
2 a 物 3.5 
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部 1 ,各 得 3.5 
1 b 1 7.0 
4 b 4 7.0 


由 于 默认 的 merge 方 法 是 求 取 连 接 键 的 交集 ， 因 此 你 可 以 通过 外 连接 的 方式 得 到 它们 的 
并 集 : 


In [41]: pd.merge(left1, right1, left_on='key', right_index=True, how='outer') 
Out[41]: 
key value group_val 

a 0 3.5 


vrrwno 
ww 


对 于 层次 化 索引 的 数据 ， 事 情 就 有 点 复杂 了 : 














In lefth = DataFrame({'key1': ['Ohio’, ‘Ohio’, ‘Ohio', ‘Nevada’, 'Nevada'], 
"key2': [2000, 2001, 2002, 2001，2002]， 
‘data': np.arange(5.)}) 

In : righth = DataFrame(np.arange(12).reshape((6，2))， 
index=[['Nevada' , ‘Nevada’ , ‘Ohio' , "Ohio’ , ‘Ohio' , ‘Ohio'], 
[2001，2000，2000，2000，2001，2002]] ， 
columns=['event1', ‘event2']) 

In [44]: lefth 

Out[44]: 

data key1 key2 

0 0 ohio 2000 

1 1 Ohio 2001 

2 2 Ohio 2002 

3 3 Nevada 2001 

4 4 Nevada 2002 

In [45]: righth 

Out[45]: 

event1 event2 

Nevada 2001 0 1 
2000 2 3 

Ohio 2000 4 5 
2000 6 7 

2001 8 9 

2002 10 11 


这 种 情况 下 ， 你 必须 以 列表 的 形式 指明 用 作 合 并 键 的 多 个 列 (注意 对 重复 索引 值 的 处 
理 ) : 
In [46]: pd.merge(lefth, righth, left_on=['key1’, 'key2'], right_index=True) 


Out[46]: 
data key1 key2 event1 event2 





192 | 第 7 章 


3 3 Nevada 
0 0 Ohio 
0 0 Ohio 
和 1 Ohio 
2 2 ohio 


key1 
Nevada 
Nevada 
Nevada 
Ohio 
Ohio 
Ohio 
Ohio 





2001 
2000 
2000 
2001 
2002 


pd.merge(lefth, righth, left_o 


mopo 
Fovup 


10 1 





key1', ‘key2°], 


right_index=True, how="outer") 


key2 
2000 
2001 
2002 
2000 
2000 
2001 
2002 


event1 event2 


2 

0 a. 
NaN NaN 
4 从 

6 7 

8 9 
10 11 


In [48]: left2 = DataFrame([[1., 2. *» 4.], [5., 6.]], index=["a’, ‘c', 





， "Nevada' ]) 


In [49]: right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]], 
: index=['b', 'c’', 'd', 'e'], columns=["Missouri', 'Alabama']) 


In [50]: left2 


Out[50]: 

Ohio Nevada 
a 1 2 
c 3 4 
e 5 6 


In [51]: right2 
Out[51]: 


Missouri Alabama 


b 7 
5 9 
d 11 
e 13 


8 
10 
12 
14 


In [52]: pd.merge(left2, right2, how="outer', left_index=True, right_index=True) 


Ohio Nevada Missouri Alabama 


Out[52] 

靳 2 
b NaN NaN 
i 4 
d NaN NaN 
e 5 6 


NaN NaN 
7 8 

9 10 
11 12 
13 14 


DataFrame 还 有 一 个 join 实例 方法 ， 它 能 更 为 方便 地 实现 按 索引 合并 。 它 还 可 用 于 合并 
多 个 带 有 相同 或 相似 索引 的 DataFrame 对 象 ， 而 不 管 它们 之 间 有 没有 重叠 的 列 。 在 上 面 
那个 例子 中 ， 我 们 可 以 编写 : 





In [53]: left2.join(right2, how="outer’) 
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Out[53]: 
Ohio Nevada Missouri Alabama 


a 1 2 NaN NaN 
b NaN NaN 7 8 
区 3 4 9 10 
d NaN NaN 11 12 
e 5 6 313 14 


由 于 一 些 历史 原因 (早期 版 本 的 pandas) ，DataFrame 的 join 方法 是 在 连接 键 上 做 左 连 
接 。 它 还 支持 参数 DataFrame 的 索引 跟 调 用 者 DataFrame 的 某 个 列 之 间 的 连接 : 


In [54]: left1.join(rightl，on='key') 


Out[54]: 

key value group_val 
0 a 0 3.5 
1 b 1 7.0 
2 a 2 3.5 
3 a 3 3.5 
4 b 4 7.0 
5 ce 5 NaN 


最 后 ， 对 于 简单 的 索引 合并 ， 你 还 可 以 向 join 传人 一 组 DataFrame (后 面 我 们 会 介绍 更 
为 通用 的 concat 函 数 ， 它 也 能 实现 此 功能 ) : 


In [55]: another = DataFrame([[7., 8.], [9., 10.], [11., 12.], [16., 17.]], 
sue index=['a’, 'c', 'e’, 'f"'], columns=['New York', 'Oregon']) 


In [56]: left2.join([right2, another]) 


Out[56]: 

Ohio Nevada Missouri Alabama New York Oregon 
a .5 2 NaN NaN 省 8 
C 弟 4 9 10 SL 10 
e 3 6 13 14 11 12 


In [57]: left2.join([right2，another]，how='outer ) 





out[57 

Ohio Nevada Missouri Alabama New York Oregon 
| 2 NaN NaN 7 8 
b NaN NaN 7 8 NaN NaN 
C 3 4 9 10 9 10 
d NaN NaN 11 12 NaN NaN 
e 5 6 13 14 11 12 
f NaN NaN NaN NaN 16 17 


轴 向 连接 
另 一 种 数据 合并 运算 也 被 称 作 连接 (concatenation) 、 绑 定 (binding) 或 堆 秋 
(stacking) 。NumPy 有 一 个 用 于 合并 原始 NumPy 数 组 的 concatenation 函 数 : 


In [58]: arr = np.arange(12).reshape((3, 4)) 
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In [59]: arr 

out[59]: 

array([[ 0，1，2， 3], 
[ 4，5，6，7]， 
[ 8, 9, 10, 11]]) 


In [60]: np.concatenate([arr, arr], axis=1) 


Out[60]: 


array([[ 0, 1, 2, 3, 0, 1, 2, 3], 
[4, 5, 6, 7, 4, 5, 6, 7], 

[ 8, 9, 10, 11, 8, 9, 10, 11]]) 

对 于 pandas 对 象 (如 Series 和 DataFrame) ， 带 有 标签 的 轴 使 你 能 够 进一步 推广 数组 的 连 
接 运算 。 具 体 点 说 ， 你 还 需要 考虑 以 下 这 些 东 西 : 


。 ”如 果 各 对 象 其 他 轴 上 的 索引 不 同 ， 那 些 轴 应 该 是 做 并 集 还 是 交集 ? 


。 ”结果 对 象 中 的 分 组 需要 各 不 相同 吗 ? 
。 ”用 于 连接 的 轴 重要 吗 ? 


pandas 的 concat 函 数 提供 了 一 种 能 够 解决 这 些 问 题 的 可 靠 方式 。 我 将 给 出 


解 其 使 用 方式 。 假 设 有 三 个 没有 重 公 索引 的 Series: 


In [61]: s1 = Series([0, 1], index=["a’, 'b']) 


In [62]: s2 = Series([2, 3, 4], index=| 


['c', 'd', 'e']) 


In [63]: s3 = Series([5, 6], index=['f', 'g']) 


对 这 些 对 象 调用 concat 可 以 将 值 和 索引 粘 合 在 一 起 : 


In [64]: pd.concat([s1，s2，s3]) 





Out[64]: 
a 0 
b 站 
[| 
d 3 
e 4 
党 多 
g 6 


- 些 例子 来 讲 


默认 情况 下 ，concat 是 在 axis=0 上 工作 的 ， 最 终 产生 一 个 新 的 Series。 如 果 传 人 axis=1， 
则 结果 就 会 变 成 一 个 DataFrame (axis=1 是 列 ) : 


In [65]: pd.concat([s1, s2, s3], axis=1) 


Out[65]: 
0 1 沪 
a 0 NaN NaN 


b INaN NaN 
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CNaN 2NaN 
dNaN 3NaN 
e NaN 4NaN 
f NaN NaN 5 
B NaN NaN 6 


这 种 情况 下 ， 另 外 一 条 轴 上 没有 重 登 ， 从 索引 的 有 序 并 集 (外 连接 ) 上 就 可 以 看 出 来 。 
传人 join='inner' 即 可 得 到 它们 的 交集 : 


In [66]: s4 = pd.concat([s1 * 5, s3]) 


In [67]: pd.concat([s1, s4], axis=1) In [68]: pd.concat([s1，s4]，axis=1，join='inner') 


Out[67]: Out[68]: 
将 筷 0 1 

a 0 0 a 0 0 

b 和 bb 

f NaN 5 

8 NaN 6 


你 可 以 通过 join_axes 指 定 要 在 其 他 轴 上 使 用 的 索引 ， 


In [69]: pd.concat([s1, s4], axis=1, join_axes=[['a’, 'c', 'b', 'e']]) 
Out[69]: 
0 1 
a 0 0 
C NaN NaN 
b 你 要 
e NaN NaN 


不 过 有 个 问题 ， 参 与 连接 的 片段 在 结果 中 区 分 不 开 。 假 设 你 想 要 在 连接 轴 上 创建 一 个 层 
次 化 索引 。 使 用 keys 参 数 即 可 达到 这 个 目的 : 
In [70]: result = pd.concat([s1, s1i, s3], keys=['one'’, 'two', ‘three']) 


In [71]: result 


Out[71]: 

one a 0 
b 工 

tw a 0 
b . 

three f 5 
g 6 


# 稍 后 将 详细 讲解 unstack 函 数 
In [72]: result.unstack() 


Out[72]: 

a b f g 
one 0 1NaNNaN 
two 0 1NaN NaN 


three NaN NaN 5 6 


如 果 沿 着 axis=1 对 Series 进 行 合并 ， 则 keys 就 会 成 为 DataFrame 的 列 头 : 
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In [73]: pd.concat([s1, s2, s3], axis=1, keys=['one’, 'two', 'three']) 


Out[73]: 
one two three 
0 NaN NaN 


a 
b 1 NaN NaN 
c NaN 2 NaN 
d NaN 3 NaN 
e NaN 4 NaN 
f NaN NaN 5 
g NaN NaN 6 


同样 的 逻辑 对 DataFrame 对 象 也 是 一 样 : 


: df1 = DataFrane(np.arange(6).reshape(3, 2), index-['a’, ‘b,c'], 
columns=[ 'one', 'two']) 





In [7 


In [75]: df2 = DataFrame(5 + np.arange(4).reshape(2, 2), index=['a’, ‘c'], 
es columns=['three’ , ‘four']) 


In [76]: pd.concat([df1, df2], axis=1, keys=['level1’, ‘level2']) 


Out[76]: 
levell level2 
one two three four 
a 谢 ，、 作 5 6 
b 2 3 NaN NaN 
& 4 5 7 8 


如 果 传 人 的 不 是 列表 而 是 一 个 字典 ， 则 字典 的 键 就 会 被 当做 keys 选 项 的 值 : 





In [77]: pd.concat({'level1': df1, 'level2': df2}, axis=1) 
out[77]: 
level1 level2 
one two three four 
a 汪 。~ 名 5 6 
b 2 3 NaN NaN 
4 5 7 8 


此 外 还 有 两 个 用 于 管理 层次 化 索引 创建 方式 的 参数 (参见 表 7-2) : 


In [78]: pd.concat([df1l，df2]，axis=1，keys=['levell'，'level2']， 
: names=[ "upper' , 'lower']) 


Out[78]: 

upper levell level2 

lower one two three four 
a 起 > 时 5 6 
b 2 3 NaN NaN 
c 4 5 7 8 


最 后 一 个 需要 考虑 的 问题 是 ， 跟 当前 分 析 工作 无 关 的 DataFrame 行 索引 证 让? 


译注 2: 也 就 是 说 那些 行 索引 是 无 意义 的 。 
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In [79]: df1 = DataFrame(np.random.randn(3, 4), columns=['a’, 'b', 'c’, 'd']) 


In [80]: df2 = DataFrame(np.random.randn(2, 3), columns=['b’, ‘d'’, ‘a’]) 


1 





a b c d 
0 -0.204708 0.478943 -0.519439 -0.555730 
1 1.965781 1.393406 0.092908 0.281746 
2 0.769023 1.246435 1.007189 -1.296221 
In [82]: df2 
Out[82]: 

b d a 
0 0.274992 0.228913 1.352917 
1 0.886429 -2.001637 -0.371843 


在 这 种 情况 下 ,传人 ignore_index=True 即 可 : 


In [83]: pd.concat([df1, df2], ignore_index=True) 
Out[83]: 
a b c d 
0 -0.204708 0.478943 -0.519439 -0.555730 
1 1.965781 1.393406 0.092908 0.281746 
2 0.769023 1.246435 1.007189 -1.296221 
3 1.352917 0.274992 NaN 0.228913 
4 -0.371843 0.886429 NaN -2.001637 


表 7-2: concat 函 数 的 参数 


参数 说 明 

objs 参与 连接 的 pandas 对 象 的 列表 或 字典 。 唯 一 必需 的 参数 

axis 指明 连接 的 轴 向 ， 默 认为 0 

join “inner”、“outer” 其 中 之 一 ， 默 认为 “outer”。 指 明 其 他 轴 向 上 


的 索引 是 按 交 集 (inner) 还 是 并 集 (outer) 进行 合并 
join_axes 指明 用 于 其 他 n-1 条 轴 的 索引 ， 不 执行 并 集 /交集 运算 


keys 与 连接 对 象 有 关 的 值 ， 用 于 形成 连接 轴 向 上 的 层次 化 索引 。 可 以 是 任 
意 值 的 列表 或 数组 、 元 组 数组 、 数 组 列表 (如 果 将 levels 设 置 成 多 级 数 
组 的 话 ) 

levels 指定 用 作 层次 化 索引 各 级 别 上 的 索引 ， 如 果 设 置 了 keys 的 话 让 ? 

names 用 于 创建 分 层级 别 的 名 称 ， 如 果 设 置 了 keys 和 (或 ) levels 的 话 


verify_integrity 检查 结果 对 象 新 轴 上 的 重复 情况 ， 如 果 发 现 则 引发 异常 。 默 认 
(False) 允许 重复 


ignore_index ”不 保留 连接 轴 上 的 索引 ， 产 生 一 组 新 索引 range(total_length) 





译注 3: 就 是 外 层级 别 的 索引 。 





198 | 第 7 章 


合并 重生 数据 


还 有 一 种 数据 组 合 问题 不 能 用 简单 的 合并 (merge) 或 连接 (concatenation) 运算 来 处 
理 。 比 如 说 ， 你 可 能 有 索引 全 部 或 部 分 重叠 的 两 个 数据 集 。 给 这 个 例子 增加 一 点 启发 
性 ， 我 们 使 用 NumPy 的 where 函 数 ， 它 用 于 表达 一 种 矢量 化 的 if-else: 

In [4 a = Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan], 


index=[ "f°, 'e’, 'd', 'c’, ‘b’, "a’]) 


In [85]: b = Series(np.arange(len(a), dtype=np.float64), 
rd index=["f', 'e’, 'd’, 'c’, ‘b’, ‘a’]) 


In [86]: b[-1] = np.nan 


In [87]: a In [88]: b In [89]: np.where(pd.isnul1(a), b, a) 
out[87]: Out[88]: Out[89]: 
f NaN f 0 f 0.0 
ee 2.5 e 1 3 2.5 
d NaN d 2 d 2.0 
£ 3.5 C 3 C 3.5 
b 4.5 b 4 b 4.5 
a NaN a NaN a NaN 


Series 有 一 个 combine_first 方 法 ， 实 现 的 也 是 一 样 的 功能 ， 而 且 会 进行 数据 对 齐 : 


In [90]: b[:-2].combine first(a[2:]) 


Out[90]: 
a NaN 
b 4.5 
< 3.0 
2 
e 1.0 
f 0.0 


对 于 DataFrame，combine_first 自 然 也 会 在 列 上 做 同样 的 事情 ， 因 此 你 可 以 将 其 看 做 : 
用 参数 对 象 中 的 数据 为 调用 者 对 象 的 缺失 数据 “ 打 补 丁 ” 





df2 = DataFrame({"a': 
bs 


5., 4., np-.nan, 3., 7.], 
np-.nan, 3., 4., 6., 8.]}) 





In [93]: df1.combine_first(df2) 


out[93] : 

a b < 
0 1NaN 2 
14 2 6 
2 5 4 10 
3 3 6 14 
47 8NaN 





数据 规整 化 : 清理 、 转 换 、 合 并 、 重 塑 | 199 


重 塑 和 轴 向 旋转 


有 许多 用 于 重新 排列 表格 型 数据 的 基础 运算 。 这 些 函 数 也 称 作 重 塑 (reshape) 或 轴 向 旋 
转 (pivot) 运算 。 


重 塑 层次 化 索引 
层次 化 索引 为 DataFrame 数 据 的 重 排 任务 提供 了 一 种 具有 良好 一 致 性 的 方式 。 主 要 功能 
有 二 ， 
。 stack: 将 数据 的 列 “ 旋 转 ”为 行 。 
。 ”unstack: 将 数据 的 行 “旋转 ”为 列 。 
我 将 通过 一 系列 的 范例 来 讲解 这 些 操作 。 接 下 来 看 一 个 简单 的 DataFrame， 其 中 的 行列 
索引 均 为 字符 串 : 
In [94]: data = DataFrame(np.arange(6) .reshape((2，3))， 


index=pd. Index([ "Ohio’ , 'Colorado'], name='state'), 
columns=pd.Index(['one’, 'two', 'three'], name='number')) 





In [95]: data 


Out[95]: 

number one two three 
state 

Ohio 半 一 和 2 
Colorado 3 4 5 


使 用 该 数据 的 stack 方 法 即 可 将 列 转换 为 行 ， 得 到 一 个 Series: 
In [96]: result = data.stack() 


In [97]: result 


Out[97]: 

state number 

Ohio one 0 
two 1 
three 2 

Colorado one 3 
two 4 
three 5 


对 于 一 个 层次 化 索引 的 Series， 你 可 以 用 unstack 将 其 重 排 为 一 个 DataFrame: 


In [98]: result.unstack() 


Out[98]: 
number one two three 
state 
Ohio 站 你 2 
Colorado 3 4 5 
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默认 情况 下 ，unstack 操 作 的 是 最 内 层 (stack 也 是 如 此 ) 。 传 入 分 层级 别 的 编号 或 名 称 即 
可 对 其 他 级 别 进行 unstack 操 作 : 


In [99]: result.unstack(0) In [100]: result.unstack('state' ) 
Out[99]: Out[100]: 

state Ohio Colorado state Ohio Colorado 

number number 

one 0 3 one 0 3 

two 1 4 two 1 4 

three 2 5 three 2 5 


如 果 不 是 所 有 的 级 别 值 都 能 在 各 分 组 中 找到 的 话 ， 则 unstack 操 作 可 能 会 引入 缺失 数据 : 
In [101]: s1 = Series([0, 1, 2, 3], index=['a’, ‘b', 'c’, 'd']) 
In [102]: $2 = Series([4, 5, 6], index=['c', 'd', 'e']) 
In [103]: data2 = pd.concat([s1, s2], keys=['one’, 'two']) 


In [104]: data2.unstack() 


Out[104]: 

a bcd e 
one 0 1 2 3NaN 
two NaN NaN 4 5 6 


stack 默 认 会 滤 除 缺失 数据 ， 因 此 该 运算 是 可 逆 的 : 


In [105]: data2.unstack().stack() In [106]: data2.unstack().stack(dropna=False) 
Out[105]: OQut[106]: 
one a 0 one a 0 
b a b 1 
过 | 二 次 2 
d 3 3 
two cec 4 NaN 
d 5 two NaN 
e 6 


nancaunan 
z= 
豆 
二 


在 对 DataFrame 进 行 unstack 操 作 时 ， 作 为 旋转 轴 的 级 别 将 会 成 为 结果 中 的 最 低级 别 : 


In [107]: df = DataFrame({ "left': result, 'right': result + 5}, 
入 许 columns=pd.Index(["left'，'right']，name='side')) 


In [108]: df 
Out[108]: 
side left right 
state number 
Ohio one 
two 
three 
Colorado one 


wnro 
muiau 
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two 4 9 


three 5 10 

In [109]: df.unstack('state') In [110]: df.unstack('state').stack('side') 

Out[109]: out[110] : 

side left right state Ohio Colorado 

state Ohio Colorado Ohio Colorado number side 

number one left 0 3 

one 0 3 5 8 right 5 8 

two 1 4 6 9 two left 1 4 

three 2 5 和 10 Tight 6 9 
three left 2 5 
right 7 10 


将 “长 格式 ”旋转 为 “ 宽 格式 ” 


时 间 序列 数据 通常 是 以 所 谓 的 “长 格式 ” (long) 或 “维基 格式 ” (stacked) 存储 在 数 
据 库 和 CSV 中 的 ;译注 4 


In [116]: ldata[ :10] 







Out[116]: 

date item value 
0 1959-03-31 00: realgdp 2710.349 
1 1959-03-31 infl 0.000 
2 1959-03-31 unemp 5.800 
3 1959-06-30 realgdp 2778.801 
4 1959-06-30 9 infl 2.340 
5 1959-06-30 00:00: unemp 5.100 
6 1959-09-30 00:00: Tealgdp 2775.488 
7 1959-09-30 00:00:00 infl 2.740 
8 1959-09-30 00:00:00 unemp 5.300 
9 1959-12-31 00:00:00 realgdp 2785.204 


关系 型 数据 库 (如 MySQL) 中 的 数据 经 常 都 是 这 样 存储 的 ， 因 为 固定 架构 ( 即 列 名 和 
数据 类 型 ) 有 一 个 好 处 : 随 着 表 中 数据 的 添加 或 删除 ，item 列 中 的 值 的 种 类 能 够 增加 或 
减少 。 在 上 面 那个 例子 中 ，date 和 item 通 常 就 是 主键 (用 关系 型 数据 库 的 说 法 ) ， 不 仅 
提供 了 关系 完整 性 ， 而 且 提供 了 更 为 简单 的 查询 支持 。 当 然 这 也 是 有 缺点 的 : 长 格式 的 
数据 操作 起 来 可 能 不 那么 轻松 。 你 可 能 会 更 喜欢 DataFrame， 不 同 的 item 值 分 别 形成 一 
列 ，date 列 中 的 时 间 值 则 用 作 索 引 。DataFrame 的 pivot 方 法 完全 可 以 实现 这 个 转换 : 


In [117]: pivoted = ldata.pivot( "date"， ‘item’, ‘value’) 


译注 4: 由 于 作者 在 此 处 并 未 介绍 1data 的 生成 代码 ， 而 后 面 又 需要 用 到 ， 所 以 不 能 独立 看 待 这 段 
代码 。 下 载 的 资料 采用 的 不 是 这 个 格式 ， 需 要 处 理 一 下 才 可 用 。 如 果 不 会 处 理 或 觉得 太 麻 
烦 ， 就 用 Excel 编 辑 一 下 吧 。 不 过 还 是 建议 处 理 一 下 ， 就 当做 练 手 了 。 给 个 相对 比较 简单 的 
小 提示 : 先 加载 进 来 ， 然 后 stack， 然 后 保存 ， 然 后 再 加 载 进来 - 
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In [118]: pivoted.head() 
Out[118] : 

item infl realgdp unemp 
date 

1959-03-31 0.00 2710.349 5. 
1959-06-30 2.34 2778.801 5. 
1959-09-30 2.74 2775.488 5. 
1959-12-31 0.27 2785.204 5. 
1960-03-31 2.31 2847.699 5. 


Daum 


前 两 个 参数 值 分 别 用 作 行 和 列 索引 的 列 名 ， 最 后 一 个 参数 值 则 是 用 于 填充 DataFrame 的 
数据 列 的 列 名 。 假 设 有 两 个 需要 参与 重 塑 的 数据 列 : 


In [119]: ldata['value2'] = np.random.randn(len(ldata)) 


In [120]: ldata[:10] 








Out[120]: 

item value value2 
0 1959-03-31 realgdp 2710.349 1.669025 
1 1959-03-31 infl 0.000 -0.438570 
2 1959-03-31 unemp 5.800 -0.539741 
3 1959-06-30 realgdp 2778.801 0.476985 
4 1959-06-30 infl 2.340 3.248944 
5 1959-06-30 unemp 5.100 -1.021228 
6 1959-09-30 realgdp 2775.488 -0.577087 
7 1959-09-30 infl 2.740 0.124121 
8 1959-09-30 unemp 5.300 0.302614 
9 1959-12-31 00:00:00 realgdp 2785.204 0.523772 


如 果 忽 略 最 后 一 个 参数 ， 得 到 的 DataFrame 就 会 带 有 层次 化 的 列 : 
In [121]: pivoted = ldata.pivot('date'，'item') 


In [122]: pivoted[:5] 


Out[122]: 

value Value2 
item infl realgdp unemp infl realgdp unemp 
date 


1959-03-31 0.00 2710.349 
1959-06-30 2.34 2778.801 


5 .438570 1.669025 -0.539741 

5 
1959-09-30 2.74 2775.488 5 

5 

5 


.248944 0.476985 -1.021228 
.124121 -0.577087 0.302614 
.000940 0.523772 1.343810 
.831154 -0.713544 -2.370232 


.8 -0 
1 3 
.3 0 
1959-12-31 0.27 2785.204 .6 0 
1960-03-31 2.31 2847.699 .2 -0， 
In [123]: pivoted["value'][:5] 
Out[123] : 

item inf realgdp unemp 
date 

1959-03-31 0.00 2710.349 5 
1959-06-30 2.34 2778.801 5 
1959-09-30 2.74 2775.488 5. 
1959-12-31 0.27 2785.204 5 
1960-03-31 2.31 2847.699 5 
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注意 ，pivot 其 实 只 是 一 个 快捷 方式 而 已 : 用 set_index 创 建 层 次 化 索引 ， 再 用 unstack 重 
塑 。 


In [124]: unstacked = ldata.set_index(['date’, ‘item']).unstack('item') 


In [125]: unstacked[:7] 


Out[125]: 

value value2 
item infl realgdp unemp infl realgdp unemp 
date 


1959-03-31 0.00 2710.349 5.8 
1959-06-30 2.34 2778.801 5.1 
1959-09-30 2.74 2775.488 5.3 
1959-12-31 0.27 2785.204 5.6 
5.2 
5.2 
5.6 


0.438570 1.669025 -0.539741 
3.248944 0.476985 -1.021228 
0.124121 -0.577087 0.302614 
0.000940 0.523772 1.343810 

1960-03-31 2.31 2847.699 0 

1960-06-30 0.14 2834.390 0 

1960-09-30 2.70 2839.022 0 


数据 转换 


本 章 到 目前 为 止 介绍 的 都 是 数据 的 重 排 。 另 一 类 重要 操作 则 是 过 滤 、 清 理 以 及 其 他 的 转 
换 工 作 。 


.831154 -0.713544 -2.370232 
.860757 -1.860761 0.560145 
.119827 -1.265934 -1.063512 


移 除 重复 数据 
DataFrame 中 常常 会 出 现 重复 行 。 下 面 就 是 一 个 例子 : 


In [126]: data = DataFrame({'k1': ['one'] * 3 + ['two'] * 4, 
pt k2': [1, 1, 2, 3, 3, 4, 4]}) 


In [127]: data 
Out[127]: 
k1 ki 
one 
one 
one 
two 
two 
two 
two 


mwmwewunpo 
hhwwnnn 达 


DataFrame 的 duplicated 方 法 返回 一 个 布尔 型 Series， 表 示 各 行 是 否 是 重复 行 : 


In [128]: data.duplicated() 


Out[128] : 

0 False 
1 True 
2 False 
3 False 
4 True 
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5 False 
6 True 


还 有 一 个 与 此 相关 的 drop_duplicates 方 法 ， 它 用 于 返回 一 个 移 除 了 重复 行 的 Data- 


Frame iES, 


In [129]: data.drop_duplicates() 
Out[129]: 

k1 k 
0 one 
2 one 
3 two 
5 two 


mwNP 克 


这 两 个 方法 默认 会 判断 全 部 列 ， 你 也 可 以 指定 部 分 列 进行 重复 项 判断 。 假 设 你 还 有 一 列 
值 ， 且 只 希望 根据 k1 列 过 滤 重 复 项 : 


In [130]: data['v1'] = range(7) 


In [131]: data.drop_duplicates(['k1']) 


Out[131]: 

k1 k2 v1 
0 oe 1 0 
3 th 3 3 


duplicated 和 和 drop_duplicates 默 认 保留 的 是 第 一 个 出 现 的 值 组 合 。 传 入 take_last=True 
则 保留 最 后 一 个 : 


In [132]: data.drop_duplicates(['k1', 'k2'], take_last=True) 
Out[132]: 
k1 k 
one 
one 
two 
two 


v 


PP 
AwNp 
amnpE 


利用 函数 或 映射 进行 数据 转换 
在 对 数据 集 进行 转换 时 ， 你 可 能 希望 根据 数组 、Series 或 DataFrame 列 中 的 值 来 实现 该 转 
换 工作 。 我 们 来 看 看 下 面 这 组 有 关 肉 类 的 数据 : 
In [133]: data = DataFrame({'food': ["bacon'，'pulled pork', ‘bacon', ‘Pastrami', 
: ‘corned beef', 'Bacon’, ‘pastrami', ‘honey ham'， 


‘nova lox'], 
"ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]}) 





译注 5: 原文 这 里 的 意思 很 有 问题 ， 原 文 说 的 是 “返回 duplicated 为 True 的 DataFrame”， 实 际 上 应 
该 是 删除 了 duplicated 为 True 的 那些 行 ， 因 此 最 终 得 到 的 DataFrame 的 duplicated 不 可 能 再 含 
有 True 了 。 
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In [134]: data 


out[134] : 

food ounces 
0 bacon 4.0 
1 pulled pork 3.0 
2 bacon 2.0 
3 pastrani 6.0 
4 corned beef 7.5 
[2 Bacon 8.0 
6 pastrami 3.0 
7 honeyham 5.0 
8 novalox 6.0 


假设 你 想 要 添加 一 列表 示 该 肉 类 食物 来 源 的 动物 类 型 。 我 们 先 编写 一 个 肉 类 到 动物 的 映 
射 ; 


meat_to_animal = { 
‘bacon': "pig'， 
"pulled pork': 
‘pastrami’: “ 
“corned ber 
‘honey ham 
"nova lox': ‘salmon’ 


} 


Series 的 map 方 法 可 以 接受 一 个 函数 或 含有 映射 关系 的 字典 型 对 象 ， 但 是 这 里 有 一 个 小 问 
题 ， 即 有 些 肉 类 的 首 字母 大 写 了 ， 而 另 一 些 则 没有 。 因 此 ， 我 们 还 需要 将 各 个 值 转换 为 


小 写 : 





In [136]: data['animal'] = data['food'].map(str.lower).map(meat_to_animal) 


In [137]: data 


out[137] : 

food ounces animal 
0 bacon 4.0 pig 
1 pulled pork 3.0 pig 
2 bacon 12.0 pig 
3 pastrami 6.0 cow 
4 corned beef 7.5 cow 
5 Bacon 8.0 pig 
6 pastrami 3.0 cow 
7 honeyham 5.0 pig 
8 nova lox 6.0 salmon 


我 们 也 可 以 传 和 一 个 能 够 完成 全 部 这 些 工 作 的 函数 : 


In [138]: data['food'].map(lanbda x: meat_to_animal[x.lower()]) 


Out[138]: 

0 pig 
1 pig 
2 pig 
和 Cow 
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4 Cow 
5 pig 
6 Cow 
7 pig 
8 salnon 
Name: food 


使 用 map 是 一 种 实现 元 素 级 转换 以 及 其 他 数据 清理 工作 的 便捷 方式 。 


替换 值 
利用 fillna 方 法 填充 缺失 数据 可 以 看 做 值 替换 的 一 种 特殊 情况 。 虽 然 前 面 提 到 的 map 可 
用 于 修改 对 象 的 数据 子 集 ， 而 rep1ace 则 提供 了 一 种 实现 该 功能 的 更 简单 、 更 灵活 的 方 
式 。 我 们 来 看 看 下 面 这 个 Series: 

In [139]: data = Series([1., -999., 2., -999., -1000., 3.]) 


In [140]: data 


Out[140]: 
0 1 
1 -999 
2 2 
3 -999 
4 -1000 
5 3 


-999 这 个 值 可 能 是 一 个 表示 缺失 数据 的 标记 值 。 要 将 其 替换 为 pandas 能 够 理解 的 NA 值 ， 
我 们 可 以 利用 replace 来 产生 一 个 新 的 Series: 


In [141]: data.replace(-999, np.nan) 


Out[141]: 
0 和 
1 NaN 
2 2 
3 NaN 
4 -1000 
5 3 


如 果 你 希望 一 次 性 替换 多 个 值 ， 可 以 传人 一 个 由 待 替换 值 组 成 的 列表 以 及 一 个 替换 值 : 


In [142]: data.replace([-999，-1000]，np.nan) 
Out[142]: 
这 
NaN 
2 
NaN 
NaN 
3 


如 果 和 希望 对 不 同 的 值 进行 不 同 的 替换 ， 则 传人 一 个 由 替换 关系 组 成 的 列表 即 可 : 


vrwnro 
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In [143]: data.replace([-999, -1000], [np.nan, 0]) 


Out[143]: 
1 
1 NaN 
2 2 
3 NaN 
4 0 
5 3 
传人 的 参数 也 可 以 是 字典 : 
In [144]: data.replace({-999: np.nan, -1000: 0}) 
Out [144]: 
0 1 
1 NaN 
2 
3 NaN 
4 0 
5 3 


重 命名 轴 索 引 
跟 Series 中 的 值 一 样 ， 轴 标签 也 可 以 通过 函数 或 映射 进行 转换 ， 从 而 得 到 一 个 新 对 象 。 
轴 还 可 以 被 就 地 修改 ， 而 无 需 新 建 一 个 数据 结构 。 接 下 来 看 看 下 面 这 个 简单 的 例子 : 


In 145]: data = DataFrame(np.arange(12).reshape((3， 4))， 
wud index=['Ohio’, ‘Colorado' , "New York'], 
columns=[ "one', 'two', 'three’, 'four’]) 


跟 Series 一 样 ， 轴 标签 也 有 一 个 map 方 法 : 


In [146]: data.index.map(str.upper) 
Out[146]: array([OHIO, COLORADO, NEW YORK], dtype=object) 


你 可 以 将 其 赋值 给 index， 这 样 就 可 以 对 DataFrame 进 行 就 地 修改 了 : 


In [147]: data.index = data.index.map(str.upper) 








In [148]: data 
Out[148]: 

one two three four 
OHIO 0 也 2 3 
COLORADO 4 5 6 7 


NEW YORK 8 9 10 11 


如 果 想 要 创建 数据 集 的 转换 版 (而 不 是 修改 原始 数据 ) ， 比 较 实 用 的 方法 是 rename: 


In [149]: data.rename(index=str.title, columns=str.upper) 
Out[149]: 
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ONE TWO THREE FOUR 


Ohio 0 . 2 3 
Colorado 4 5 6 7 
New York 8 9 10 11 


特别 说 明 一 下 ，rename 可 以 结合 字典 型 对 象 实现 对 部 分 轴 标 签 的 更 新 : 





In [150]: data.rename(index={"OHIO': 





?INDIANA' }， 





i columns={'three': "peekaboo']) 
out[150]: 
one two peekaboo four 
INDIANA 0 1 全 $ 
COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


rename 帮 我 们 实现 了 : 复制 DataFrame 并 对 其 索引 和 列 标签 进行 赋值 。 如 果 和 希望 就 地 修 
改 某 个 数据 集 ， 传 人 inplace=True 即 可 : 


# 总 是 返回 DataFrame 的 引用 
In [151]: _ = data.rename(index={'OHIO': ‘INDIANA'}, inplace=True) 


In [152]: data 


Out[152]: 

one two three four 
INDIANA 0 1 2 3 
COLORADO 4 5 6 7 


NEW YORK 8 9 10 11 


离散 化 和 面 元 划分 


为 了 便于 分 析 ， 连 续 数据 常常 被 离散 化 或 拆 分 为 “ 面 元 ” (bin) 。 假 设 有 一 组 人 员 数 
据 ， 而 你 希望 将 它们 划分 为 不 同 的 年 龄 组 ; 


In [153]: ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] 


接 下 来 将 这 些 数据 划分 为 “18 到 25”、“26 到 35”、“35 到 60” 以 及 “60 以 上 ” 几 个 面 
元 。 要 实现 该 功能 ， 你 需要 使 用 pandas 的 cut 函 数 : 


In [154]: bins = [18, 25, 35, 60, 100] 
In [155]: cats = pd.cut(ages, bins) 


In [156]: cats 
Out[156]: 
Categorical: 
array([(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], (18, 25], 
(35, 60], (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]], dtype=object) 
Levels (4): Index([(18, 25], (25, 35], (35, 60], (60, 100]], dtype=object) 
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pandas 返 回 的 是 一 个 特殊 的 Categorical 对 象 。 你 可 以 将 其 看 做 一 组 表示 面 元 名 称 的 字符 
串 。 实 际 上 ， 它 含有 一 个 表示 不 同 分 类 名 称 的 levels 数 组 以 及 一 个 为 年 龄 数据 进行 标号 
的 labels 属 性 : 


In [157]: cats.labels 
Out[157]: array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1]) 


In [158]: cats.levels 
Out[158]: Index([(18, 25], (25, 35], (35, 60], (60, 100]], dtype=object) 


In [159]: pd.value counts(cats) 


Out[159]: 

(18, 25 5 
(35, 60] 3 
(25，35 3 
(60, 100] 1 


跟 “ 区 间 ” 的 数学 符号 一 样 ， 圆 括号 表示 开端 ， 而 方 括号 则 表示 闭 端 (包括 ) 。 哪 边 是 
闭 端 可 以 通过 right=False 进 行 修改 : 


In [160]: pd.cut(ages, [18, 26, 36, 61, 100], right=False) 
Out[160]: 
Categorical: 

array([[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), [18, 26), 

36, 61), [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)], dtype=object) 
Levels (4): Index([[18, 26), [26, 36), [36, 61), [61, 100)], dtype=object) 





你 也 可 以 设置 自己 的 面 元 名 称 ， 将 labels 选 项 设置 为 一 个 列表 或 数组 即 可 : 
In [161]: group_nanes = ["Youth'，'YoungAdult'，'MiddleAged'，'Senior'] 


In [162]: pd.cut(ages, bins, labels=group_names) 
Out[162]: 
Categorical: 
array([Youth, Youth, Youth, YoungAdult, Youth, Youth, MiddleAged, 

YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult], dtype=object) 
Levels (4): Index([Youth, YoungAdult, MiddleAged, Senior], dtype=object) 





如 果 向 cut 传 入 的 是 面 元 的 数量 而 不 是 确切 的 面 元 边界 ， 则 它 会 根据 数据 的 最 小 值 和 最 
大 值 计算 等 长 面 元 。 下 面 这 个 例子 中 ,我 们 将 一 些 均匀 分 布 的 数据 分 成 四 组 : 


In [163]: data = np.random.rand(20) 


In [164]: pd.cut(data, 4, precision=2) 

Out[164]: 

Categorical: 

array([(0.45, 0.67], (0.23, 0.45], (0.0037, 0.23], (0.45, 0.67], 
(0.67, 0.9], (0.45, 0.67], (0.67, 0.9], (0.23, 0.45], (0.23, 0.45], 
(0.67, 0.9], (0.67, 0.9], (0.67, 0.9], (0.23, 0.45], (0.23, 0.45], 
(0.23, 0.45], (0.67, 0.9], (0.0037, 0.23], (0.0037, 0.23], 
(0.23, 0.45], (0.23, 0.45]], dtype=object) 
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Levels (4): Index([(0.0037, 0.23], (0.23, 0.45], (0.45, 0.67], 
(0.67, 0.9]], dtype=object) 
qcut 是 一 个 非常 类 似 于 cut 的 函数 ， 它 可 以 根据 样本 分 位 数 对 数据 进行 面 元 划分 。 根 据 数 
据 的 分 布 情况 ，cut 可 能 无 法 使 各 个 面 元 中 含有 相同 数量 的 数据 点 。 而 qcut 由 于 使 用 的 是 
样本 分 位 数 ， 因 此 可 以 得 到 大 小 基本 相等 的 面 元 : 


In [165]: data = np.random.randn(1000) # 正 态 分 布 
In [166]: cats = pd.qcut(data，4) # 按 四 分 位 数 进行 切割 


In [167]: cats 
Out[167]: 
Categorical: 
array([(-0.022, 0.641], [-3.745, -0.635], (0.641, 3.26], ...» 
(-0.635, -0.022], (0.641, 3.26], (-0.635, -0.022]], dtype=object) 
Levels (4): Index([[-3.745, -0.635], (-0.635, -0.022], (-0.022, 0.641], 
(0.641, 3.26]], dtype=object) 


In [168]: pd.value_counts(cats) 


Out[168]: 
[-3.745, -0.635] 250 
(0.641, 3.26] 250 


(-0.635，-0.022] 。 250 
(-0.022, 0.641] 250 


跟 cut 一 样 ， 也 可 以 设置 自 定义 的 分 位 数 (0 到 1 之 间 的 数值 ， 包 含 端点 ) : 
In [169]: pd.qcut(data，[0，0.1，0.5，0.9，1.]) 
Out[169]: 
Categorical: 
array([(-0.022, 1.302], (-1.266, -0.022], (-0.022, 1.302], ..., 
(-1.266, -0.022], (-0.022, 1.302], (-1.266, -0.022]], dtype=object) 


Levels (4): Index([[-3.745, -1.266], (-1.266, -0.022], (-0.022, 1.302], 
(1.302, 3.26]], dtype=object) 


本 章 稍 后 在 讲解 聚合 和 分 组 运算 时 会 再 次 用 到 cut 和 qcut， 因 为 这 两 个 离散 化 函数 对 分 
量 和 分 组 分 析 非 常 重要 。 


检测 和 过 滤 异 常 值 


异常 值 并 8s6 (outlier) 的 过 滤 或 变换 运算 在 很 大 程度 上 其 实 就 是 数组 运算 。 来 看 一 个 仿 
有 正太 分 布 数据 的 DataFrame: 


In [170]: np.random.seed(12345) 


In [171]: data = DataFrame(np.random.randn(1000, 4)) 


译注 6: 也 叫 屠 立 点 或 离 群 值 。 
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In [172]: data.describe() 


out[172] : 

0 1 2 3 
count 1000.000000 1000.000000 1000.000000 1000.000000 
mean -0.067684 0.067924 0.025598 -0.002298 
std 0.998035 0.992106 1.006835 0.996794 
min -3.428254 -3.548824 -3.184377 -3.745356 
25% -0.774890 。 -0.591841 -0.641675 -0.644144 
50% -0.116401 0.101143 0.002073 -0.013611 
75% 0.616366 0.780282 0.680391 0.654328 
maxX 3.366626 2.653656 3.260383 3.927528 


假设 你 想 要 找 出 某 列 中 绝对 值 大 小 超过 3 的 值 : 
In [173]: col = data[3] 


: col[np.abs(col) > 3] 





97 3.927528 





305 “399312 
400 -3.745356 
Name: 3 


要 选 出 全 部 含有 “超过 3 或 -3 的 值 ”的 行 ， 你 可 以 利用 布尔 型 DataFrame 以 及 any 方 法 : 


In [175]: data[(np.abs(data) > 3).any(1)] 
Out[175]: 

0 1 2 3 
5 -0.539741 0.476985 3.248944 -1.021228 
97 -0.774363 0.552936 0.106061 3.927528 
102 -0.655054 -0.565230 3.176873 0.959533 
305 -2.315555 0.457246 -0.025907 -3.399312 
324 0.050188 1.951312 3.260383 0.963301 
400 0.146326 0.508391 -0.196713 -3.745356 
499 -0.293333 -0.242459 -3.056990 1.918403 
523 -3.428254 -0.296336 -0.439938 -0.867165 
586 0.275144 1.179227 -3.184377 1.369891 
808 -0.362528 -3.548824 1.553205 -2.186301 
900 3.366626 -2.372214 0.851010 1.332846 











四 


根据 这 些 条 件 ， 即 可 轻松 地 对 值 进行 设置 。 下 面 的 代码 可 以 将 值 限制 在 区 间 -3 到 3 以 内 ， 
In [176]: data[np.abs(data) > 3] = np.sign(data) * 3 


In [177]: data.describe() 


out[177]: 

0 1 2 3 
count 1000.000000 1000.000000 1000.000000 1000.000000 
mean -0.067623 0.068473 0.025153 -0.002081 
std 0.995485 0.990253 1.003977 0.989736 
min -3.000000 -3.000000 -3.000000 -3.000000 
25% -0.774890 -0.591841 -0.641675 -0.644144 
50% -0.116401 0.101143 0.002073 -0.013611 





75% 0.616366 0.780282 0.680391 0.654328 
max 3.000000 2.653656 3.000000 3.000000 


np.sign 这 个 ufunc 返 回 的 是 一 个 由 1 和 一 1 组 成 的 数组 ， 表 示 原 始 值 的 符号 。 


排列 和 随机 采样 


利用 numpy.random.permutation 国 数 可 以 轻松 实现 对 Series 或 DataFrame 的 列 的 排列 工作 
(permuting， 随 机 重 排序 二 7) 。 通 过 需要 排列 的 轴 的 长 度 调用 permutation， 可 产生 一 


个 表示 新 顺序 的 整数 数组 : 
In [178]: df = DataFrame(np.arange(5 * 4).reshape(5，4)) 
In [179]: sampler = np.random.permutation(5) 


In [180]: sampler 
Out[180]: array([1, 0, 2, 3, 4]) 


然后 就 可 以 在 基于 ix 的 索引 操作 或 take 函 数 中 使 用 该 数组 了 : 








In [181]: df 
Out[181]: 

0 1 2 3 
六 间 人 大半 
和 和 本 站 
2 8 9 10 11 
3 12 13 14 15 
4 16 17 18 19 
In [182]: df.take(sampler) 
Out[182]: 

中 “六 六 
和 “时 ， 芝 和 
| 
2 8 9 10 1 
3 12 13 14 15 
4 16 17 18 19 


如 果 不 想 用 替换 的 方式 选取 随机 子 集 ， 则 可 以 使 用 permutation: 从 permutation 返 回 的 
数组 中 切 下 前 k 个 元 素 ， 其 中 k 为 期 望 的 子 集 大 小 。 虽 然 有 很 多 高 效 的 算法 可 以 实现 非 术 


换 式 采样 ， 但 是 手边 就 有 的 工具 为 什么 不 用 呢 ? 


In [183]: df.take(np.random.permutation(len(df))[:3]) 
Out[183] : 
GE | 
| We UR. 从 党 
3 12 13 14 15 
4 16 17 18 19 


译注 7: 也 就 是 中 学 学 的 那个 排列 ， 只 不 过 不 是 算出 所 有 排列 ， 而 是 其 中 之 一 。 
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要 通过 替换 的 方式 产生 样本 ， 最 快 的 方式 是 通过 np.random.randint 得 到 一 组 随机 整数 : 
In [184]: bag = np.array([5, 7, -1, 6, 4]) 
In [185]: sampler = np.random.randint(0, len(bag), size=10) 


In [186]: sanpler 
Out[186]: array([4, 4, 2, 2, 2, 0, 3, 0, 4, 1]) 


In [187]: draws = bag.take(sampler) 


In [188]: draws 
Out[188]: array([ 4, 4, -1, -1, -1, 5, 6, 5, 4, 7]) 


计算 指标 / 哑 变 量 

另 一 种 常用 于 统计 建 模 或 机 器 学 习 的 转换 方式 是 : 将 分 类 变量 (categorical variable) 
转换 为 “三 变量 和 矩阵” (dummy matrix) 或 “指标 矩阵 ” (indicator matrix) 。 如 果 
DataFrame 的 某 一 列 中 含有 k 个 不 同 的 值 ， 则 可 以 派生 出 一 个 k 列 矩阵 或 DataFrame (其 值 
全 为 1 和 0) 。pandas 有 一 个 get_dummies 函 数 可 以 实现 该 功能 (其实 自 己 动手 做 一 个 也 不 
难 ) 。 拿 之 前 的 一 个 例子 来 说 : 


In [189]: df = DataFrame({'key': ['b’, ‘b’, 'a’, ‘c’, ‘a’, b]， 
oo "data1': range(6)}) 
In [190]: pd.get_dummies(df['key']) 


Out[190]: 
b 


wewnwne 
ononoou 
pooonen 

oorooon 


有 时 候 ， 你 可 能 想 给 指标 DataFrame 的 列 加 上 一 个 前 级 ， 以 便 能 够 跟 其 他 数据 进行 合 
并 。get_dummies 的 prefix 参 数 可 以 实现 该 功能 : 


In [191]: dunmies = pd.get_dummies(df['key'], prefix="key") 
In [192]: df_with_dummy = df[["datal']].join(dunmies) 


In [193]: df_with_dummy 


Out[193]: 

datal key a key b keyc 
0 0 0 1 0 
4 1 0 1 0 
2 2 4 0 0 





于 3 0 0 1 
4 4 1 0 0 
名 5 0 1 0 


如 果 DataFrame 中 的 某 行 同 属于 多 个 分 类 ， 则 事情 就 会 有 点 复杂 。 回 到 本 书 前 面 那个 
MovieLens 1M 数 据 集 上 : 许 让 8 


In [194]: mnames = ['movie id'，'title'，'genres'] 


In [195]: movies = pd.read_table('cho2/movielens/movies.dat', sep="'::', header=None, 
wi names=mnames) 


In [196]: movies[:10] 


Out[196]: 

movie_id title genres 
0 和 Toy Story (1995) ” Animation|Children's|Comedy 
2 Jumanji (1995) Adventure|Children's|Fantasy 
2 和 Grumpier 01d Men (1995) Comedy |Romance 
. 4 Waiting to Exhale (1995) Comedy |Drama 
4 5 Father of the Bride Part II (1995) Comedy 
5 6 Heat (1995) Action|Crime|Thriller 
6 7 Sabrina (1995) Comedy |Romance 
7 8 Tom and Huck (1995) Adventure|Children's 
8 9 Sudden Death (1995) Action 
9 10 GoldenEye (1995) Action|Adventure|Thriller 


要 为 每 个 genre 添 加 指标 变量 就 需要 做 一 些 数据 规整 操作 。 首 先 ， 我 们 从 数据 集中 抽取 出 
不 同 的 genre 值 (注意 巧 用 set.union) : 


In [197]: genre_iter = (set(x.split('|')) for x in movies.genres) 

In [198]: genres = Sorted(set.union(*genre_iter)) 
现在 ， 我 们 从 一 个 全 零 DataFrame 开 始 构建 指标 DataFrame: 

In [199]: dummies = DataFrane(np.zeros((len(movies), len(genres))), columns=genres) 
接 下 来 ， 迭 代 每 一 部 电影 并 将 dummies 各 行 的 项 设置 为 1 : 


In [200]: for i, gen in enunerate(movies.genres): 
dummies.ix[i, gen.split("|")] = 1 





然后 ， 再 将 其 与 movies 合 并 起 来 : 
In [201]: movies windic = movies.join(dumnies.add prefix("Genre_')) 


In [202]: movies windic.ix[0] 
Out[202]: 


译注 8: 这 个 数据 集 不 在 ch07 中 ， 而 在 ch02 里 面 。 
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movie_id 1 


title Toy Story (1995) 
genres Animation|Children's|Comedy 
Genre_Action 0 


Genre_Adventure 
Genre_Animation 
Genre_Children's 
Genre_Comedy 
Genre_Crime 
Genre_Documentary 
Genre_Drama 
Genre_Fantasy 
Genre_Film-Noir 
Genre_Horror 
Genre Musical 
Genre_ Mystery 
Genre_Romance 
Genre Sci-Fi 
Genre_Thriller 
Genre_War 
Genre_Western 
Nane: 0 


ooooooooo0oo0oo0oo0oor-»-o 





注意 ， 对 于 很 大 的 数据 ， 用 这 种 方式 构建 多 成 员 指标 变量 就 会 变 得 非常 慢 。 肯 定 需要 编写 一 个 能 
够 利用 DataFrame 内 部 机 制 的 更 低级 的 函数 才 行 。 


-个 对 统计 应 用 有 用 的 秘诀 是 : 结合 get_dummies 和 诸如 cut 之 类 的 离散 化 函数 。 





In [204]: values = np.random.rand(10) 

In [205]: values 

Out[205]: 

array([ 0.9296, 0.3164, 0.1839, 0.2046, 0.5677, 0.5955, 0.9645, 
0.6532, 0.7489， 0.6536]) 

In [206]: bins = [0, 0.2, 0.4, 0.6, 0.8, 1] 


In [207]: pd.get_dummies(pd.cut(values, bins)) 


Out[207]: 

(0, 0.2] (0.2, 0.4] (0.4, 0.6] (0.6, 0.8] (0.8, 1] 
0 0 0 0 0 1 
1 0 1 0 0 0 
2 1 0 0 0 0 
3 0 1 0 0 0 
4 0 0 1 0 0 
5 0 0 条 0 0 
6 0 0 0 0 3 
7 0 0 0 1 0 
8 0 0 0 1 0 
9 0 0 0 1 0 





Es 王 
字符 串 操 作 

Python 能 够 成 为 流行 的 数据 处 理 语 言 ， 部 分 原因 是 其 简单 易 用 的 字符 串 和 文本 处 理 功 
能 。 大 部 分 文本 运算 都 直接 做 成 了 字符 串 对 象 的 内 置 方法 。 对 于 更 为 复杂 的 模式 匹配 和 
文本 操作 ， 则 可 能 需要 用 到 正则 表达 式 。pandas 对 此 进行 了 加 强 ， 它 使 你 能 够 对 整 组 数 
据 应 用 字符 串 表达 式 和 正则 表达 式 ， 而 且 能 处 理 烦人 的 缺失 数据 。 


字符 串 对 象 方法 


对 于 大 部 分 字符 串 处 理应 用 而 言 ， 内 置 的 字符 串 方法 已 经 能 够 满足 要 求 了 。 例 如 ， 以 去 
号 分 隔 的 字符 串 可 以 用 split 拆 分 成 数 段 : 


In [208]: val = 'a,b, guido' 


In [209]: val.split(',') 
Out[209]: ['a’, 'b', ' guido'] 


split 常 常 结合 strip (用 于 修剪 空白 符 (包括 换行 符 ) ) 一 起 使 用 : 
In [210]: pieces = [x.strip() for x in val.split("，)] 


In [211]: pieces 
Out[211]: ['a’, ‘b', 'guido'] 


利用 加 法 ， 可 以 将 这 些 子 字符 串 以 双 冒 号 分 隔 符 的 形式 连接 起 来 ， 于 汪 ” 
In [212]: first, second, third = pieces 


In [213]: first + '::' + second + '::' + third 
Out[213]: 'a::b::guido’ 


但 这 种 方式 并 不 是 很 实用 。 一 种 更 快 更 符合 Python 风 格 的 方式 是 ， 向 字符 串 “::” 的 join 
方法 传 入 一 个 列表 或 元 组 : 


In [214]:“ 
Out[214]: 


另 一 类 方法 关注 的 是 子 串 定位 。 检 测 子 串 的 最 佳 方式 是 利用 Python 的 in 关 键 字 (当然 还 
可 以 使 用 index 和 find) : 











In [215]: ‘guido’ in val 
Out[215]: True 


In [216]: val.index(',') 


译注 9: 其 实 什 么 分 隔 符 都 行 ， 原文 有 歧义 。 
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out[216]: 1 
In [217]: val.find(':') 
Out[217]: -1 


注意 find 和 index 的 区 别 : 如 果 找 不 到 字符 串 ，index 将 会 引发 一 个 异常 (而 不 是 返回 


me 


In [218]: val.index(':') 


ValueError Traceback (most recent call last) 


<ipython-input-218-280f8b2856ce> in <module>() 
----> 1 val.index(':') 
ValueError: substring not found 


此 外 还 有 一 个 count 函 数 ， 它 可 以 返回 指定 子 串 的 出 现 次 数 : 


In [219]: val.count(',') 
Out[219]: 2 


replace 用 于 将 指定 模式 替换 为 另 一 个 模式 。 它 也 常常 用 于 删除 模式 : 传人 空 字 符 串 。 


In [220]: val.replace(',’, '::') 

Out[220]: 'a::b:: guido' 

In [221]: val.replace(',', '') 

Out[221]: 'ab guido’ 
这 些 运 算 大 部 分 都 能 使 用 正则 表达 式 实现 (马上 就 会 看 到 ) 。 
Python 内 置 的 字符 串 方法 如 表 7-3 所 示 。 


表 7-3: Python 内 置 的 字符 串 方法 


方法 说 明 

count 返回 子 串 在 字符 串 中 的 出 现 次 数 ( 非 重叠 ) 

endswith 、startswith ”如 果 字 符 串 以 某 个 后 缀 结尾 (以 某 个 前 级 开头 ) ， 则 返回 True 
join 将 字符 串 用 作 连 接 其 他 字符 串 序列 的 分 隔 符 

index 如 果 在 字符 串 中 找到 子囊 ， 则 返回 子 串 第 一 个 字符 所 在 的 位 


置 。 如 果 没有 找到 ， 则 引发 ValueError。 


find 如 果 在 字符 串 中 找到 子 串 ， 则 返回 第 一 个 发 现 的 子 串 的 第 一 个 


字符 所 在 的 位 置 。 如 果 没 有 找到 ， 则 返回 一 1 


rfind 如 果 在 字符 串 中 找到 子 串 ， 则 返回 最 后 一 个 发 现 的 子 串 的 第 一 


个 字符 所 在 的 位 置 。 如 果 没有 找到 ， 则 返回 一 1 
replace 用 另 一 个 字符 串 替 换 指定 子 串 
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表 7-3: Python 内 置 的 字符 串 方法 ( 续 ) 


方法 说 明 
strip、rstrip、lstrip ”去 除 空白 符 (包括 换行 符 ) 。 相 当 于 对 各 个 元 素 执行 x.strip() 





(以 及 rstrip、lstrip) 。 Pely 
split 通过 指定 的 分 隔 符 将 字符 串 拆 分 为 一 组 子 串 
lower、upper 分 别 将 字母 字符 转换 为 小 写 或 大 写 
liust、rjust 用 空格 (或 其 他 字符 ) 填充 字符 串 的 空白 侧 以 返回 符合 最 低 宽 
 ” 度 的 字符 串 
正则 表达 式 


正则 表达 式 (通常 称 作 regex) 提供 了 一 种 灵活 的 在 文本 中 搜索 或 匹配 字符 串 模式 的 方 
式 。 正 则 表达 式 是 根据 正则 表达 式 语言 编写 的 字符 串 。Python 内 置 的 re 模块 负责 对 字符 
串 应 用 正则 表达 式 。 我 将 通过 一 些 例子 说 明 其 使 用 方法 。 


注意 ， 正 则 表达 式 的 编写 技巧 可 以 自 成 一 章 评 尝 ， 因 此 超出 了 本 书 的 范围 。 网 上 可 以 找到 许多 非 
常 不 错 的 教程 和 参考 资料 ， 比 如 Zed Shaw 的 《Learn Regex The Hard Way》 (http://regex. 


learncodethehardway.org/book/) 。 


re 模块 的 函数 可 以 分 为 三 个 大 类 模式 匹配 、 替 换 以 及 拆 分 。 当 然 ， 它 们 之 间 是 相 辅 相 
成 的 。 一 个 regex 描 述 了 需要 在 文本 中 定位 的 一 个 模式 ， 它 可 以 用 于 许多 目的 。 我 们 先 来 
看 一 个 简单 的 例子 :假设 我 想 要 拆 分 一 个 字符 串 ， 分 隔 符 为 数量 不 定 的 一 组 空白 符 〈( 制 
表 符 、 空 格 、 换 行 符 等 ) 。 描 述 一 个 或 多 个 空白 符 的 regex 是 \s+: 


In [222]: import re 
In [223]: text = "foo bar\t baz \tqux" 


In [224]: re.split('\s+', text) 
Out[224]: ['foo', ‘bar’, ‘baz', ‘qux'] 


调用 re.split('\s+'，text) 时 ， 正 则 表达 式 会 先 被 编译 ， 然 后 再 在 text 上 调用 其 split 方 
法 。 你 可 以 用 re.compile 自 己 编译 regex 以 得 到 一 个 可 重用 的 regex 对 象 ; 


In [225]: regex = re.compile('\s+') 


译注 10: 这 里 的 说 法 有 误 。 字 符 事 的 各 个 元 素 不 就 是 字符 吗 ? 这 里 不 是 矢量 化 的 ， 当 涉及 pandas 中 
的 这 几 个 函数 的 失 量 版 时 才 应 该 加 上 后 面 这 可。 


译注 11: 别 说 一 章 ， 目 前 市 面 上 专门 介绍 正则 表达 式 的 书 非常 多 。 
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In [226]: regex.split(text) 
Out[226]: ['foo’, ‘bar’, ‘baz', 'qux'] 


如 果 只 希望 得 到 匹配 regex 的 所 有 模式 ， 则 可 以 使 用 findall 方 法 : 


In [227]: regex.findall(text) 
Out[227]: [At At 





注意 : 如 果 想 避免 正则 表达 式 中 不 需要 的 转 义 〈\) ， 则 可 以 使 用 原始 字符 串 字面 最 如 CN (也 
可 以 编写 其 等 价 式 'C:\\x') 。 





如 果 打 算 对 许多 字符 串 应 用 同一 条 正则 表达 式 ， 强 烈 建议 通过 re.compile 创 建 regex 对 
象 。 这 样 将 可 以 节省 大 量 的 CPU 时 间 。 


match 和 search 跟 findall 功 能 类 似 。findall 返 回 的 是 字符 串 中 所 有 的 匹配 项 ， 而 search 则 
只 返回 第 一 个 匹配 项 。match 更 加 严格 ， 它 只 匹配 字符 串 的 首部 。 来 看 一 个 小 例子 ， 假 设 
我 们 有 一 段 文本 以 及 一 条 能 够 识别 大 部 分 电子 邮件 地 址 的 正则 表达 式 : 

text = """Dave dave@google.com 

Steve steve@gmail.com 

Rob rob@gnail. com 

Ryan Iyan@yahoo. com 


pattern = r'[A-Z0-9. %+-]+@[A-20-9.-]+\.[A-Z2]{2,4}" 


# Te.IGNORECASE 的 作用 是 使 正则 表达 式 对 大 小 写 不 敏感 
regex = re.compile(pattern, flags=re.IGNORECASE) 


对 text 使 用 findall 将 得 到 一 组 电子 邮件 地 址 : 


In [229]: regex.findall(text) 
Out[229]: ['dave@google.com', 'steve@gmail.com', 'rob@gnail.com', 'ryan@yahoo.com'] 


search 返 回 的 是 文本 中 第 一 个 电子 邮件 地 址 (以 特殊 的 匹配 项 对 象形 式 返回 ) 。 对 于 上 
面 那个 regex， 匹 配 项 对 象 只 能 告诉 我 们 模式 在 原 字符 串 中 的 起 始 和 结束 位 置 : 


In [230]: m = regex.search(text) 


In [231]: m 
Out[231]: <_sre.SRE Match at Ox10a05de00> 


In [232]: text[m.start():m.end()] 
Out[232]: ‘dave@google.com’ 


regex.match 则 将 返回 None， 因 为 它 只 匹配 出 现在 字符 串 开头 的 模式 : 


In [233]: print regex.match(text) 
None 
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另外 还 有 一 个 sub 方 法 ， 它 会 将 匹配 到 的 模式 替换 为 指定 字符 串 ， 并 返回 所 得 到 的 新 字 
符 串 : 

In [234]: print regex.sub('REDACTED', text) 

Dave REDACTED 

Steve REDACTED 


Rob REDACTED 
Ryan REDACTED 


假设 你 不 仅 想 要 找 出 电子 邮件 地 址 ， 还 想 将 各 个 地 址 分 成 3 个 部 分 : 用 户 名 、 域 名 以 及 
域 后 级 。 要 实现 此 功能 ， 只 需 将 待 分 段 的 模式 的 各 部 分 用 圆 括号 包 起 来 即 可 : 


In [235]: pattern = r'([A-20-9. %+-]+)@([A-20-9.-]+)\.([A-2]{2,4})" 
In [236]: regex = re.compile(pattern, flags=re.IGNORECASE) 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 ， 可 以 通过 其 groups 方 法 返回 一 个 由 模式 各 段 组 
成 的 元 组 : 


In [237]: m = regex.match('wesm@bright.net') 


In [238]: m.groups() 
Out[238]: ('wesm’, ‘bright', ‘net') 


对 于 带 有 分 组 功能 的 模式 ，findal1 会 返回 一 个 元 组 列表 : 


In [239]: regex.findall(text) 
Out[239]: 

[('dave', 'google’, ‘com’), 
('steve', ‘gmail', 'com'), 
("rob', ‘gnail’, ‘com’), 
('ryan', yahoo’, ‘com')] 


sub 还 能 通过 诸如 \1、\2 之 类 的 特殊 符号 访问 各 匹配 项 中 的 分 组 : 


In [240]: print regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text) 
Dave Username: dave, Domain: google, Suffix: com 

Steve Username: steve，Domain: gmail, Suffix: com 

Rob Username: rob, Domain: gmail, Suffix: com 

Ryan Username: ryan, Domain: yahoo, Suffix: com 


Python 中 还 有 许多 的 正则 表达 式 ， 但 大 部 分 都 超出 了 本 书 的 范围 。 为 了 给 你 一 点 感觉 ， 
我 对 上 面 那个 电子 邮件 正则 表达 式 做 一 点 小 变动 : 为 各 个 匹配 分 组 加 上 一 个 名 称 。 


regex = re.compile(r""" 
(?P<username> [A-20-9. %+-]+) 


(YPp<domain> [A-20-9.-]+) 
Ns 
(?P<suffix> [A-Z]{2,4})""", flags=re.IGNORECASE |re.VERBOSE) 
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由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 可 以 得 到 一 个 简单 易 用 的 带 有 分 组 名 称 的 字典 


In [242]: m = regex.match("wesmebright.net') 


In [243]: m.groupdict() 
Out[243]: {"domain': "bright', 'suffix': 'net', "username': ‘wesm'} 


前 面 提 及 的 正则 表达 式 的 方法 与 说 明 如 表 7-4 所 示 。 


表 7-4: 正则 表达 式 方法 


方法 


findall、finditer 


说 明 


返回 字符 串 中 所 有 的 非 重合 匹配 模式 。findall 返 回 的 是 由 所 有 模式 
组 成 的 列表 ， 而 finditer 则 通过 一 个 迭代 器 逐个 返回 





match 从 字符 串 起 始 位 置 匹配 模式 ， 还 可 以 对 模式 各 部 分 进行 分 组 。 如 果 
匹配 到 模式 ， 则 返回 一 个 匹配 项 对 象 ， 否 则 返回 None 

search 扫描 整个 字符 串 以 匹配 模式 。 如 果 找 到 则 返回 一 个 匹配 项 对 象 。 跟 
match 不 同 ， 其 匹配 项 可 以 位 于 字符 串 的 任意 位 置 ， 而 不 仅仅 是 起 
始 处 

split 根据 找到 的 模式 将 字符 串 拆 分 为 数 自 

sub、subn 将 字符 串 中 所 有 的 (sub) 或 前 n 个 (subn) 模式 替换 为 指定 表达 

< 式 # 2。 在 替换 字符 串 中 可 以 通过 \1、\2 等 符号 表示 各 分 组 项 

pandas 中 矢量 化 的 字符 串 函 数 


清理 待 分 析 的 散乱 数据 时 ， 常 常 需要 做 一 些 字符 串 规整 化 工作 。 更 为 复杂 的 情况 是 ， 含 
有 字符 串 的 列 有 时 还 含有 缺失 数据 : 


In [244]: data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com', 


‘Rob': ‘rob@gmail.com', 'Wes': np.nan} 


In [245]: data = Series(data) 


In [246]: data 


Out[246]: 

Dave dave@google. com 
Rob rob@gmail .com 
Steve ~ steve@gmail.com 
Wes NaN 
In [247]: data.isnull() 
Out[247]: 

Dave False 

Rob False 


译注 12: 这 个 表达 式 要 么 是 字符 事 要 么 是 函数 返回 值 。 
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Steve False 
Wes True 


通过 data.map， 所 有 字符 串 和 正则 表达 式 方法 都 能 被 应 用 于 (传人 lambda 表 达 式 或 其 他 
函数 ) 各 个 值 ， 但 是 如 果 存 在 NA 就 会 报错 。 为 了 解决 这 个 问题 ，Series 有 一 些 能 够 跳 过 
NA 值 的 字符 串 操作 方法 。 通 过 Series 的 str 属 性 即 可 访问 这 些 方法 。 例 如 ， 我 们 可 以 通 
过 str.contains 检 查 各 个 电子 邮件 地 址 是 否 含有 “gmail”: 


In [248]: data.str.contains('gmail') 


out[248] : 

Dave False 
Rob True 
Steve True 
Wes NaN 


这 里 也 可 以 使 用 正则 表达 式 ， 还 可 以 加 上 任意 re 选项 (如 IGNORECASE) : 


In [249]: pattern 
Out[249]: '([A-Z0-9. %+-]+)@([A-20-9.-]+)\\.([A-Z]{2,4})" 


In [250]: data.str.findall(pattern, flags=re.IGNORECASE) 


Out[250]: 

Dave [('dave', 'google', ‘com')] 
Rob [(‘rob’, ‘gmail', ‘com')] 
Steve  [('steve', 'gmail’, 'com')] 
Wes NaN 


有 两 个 办 法 可 以 实现 矢量 化 的 元 素 获取 操作 : 要 么 使 用 str.get， 要 么 在 str 属 性 上 使 用 
索引 。 


In [251]: matches = data.str.match(pattern, flags=re.IGNORECASE) 


In [252]: matches 


Out[252]: 

Dave (‘dave', ‘google', ‘com') 
Rob ('rob'，'gmail'，'com') 
Steve ('steve', ‘gmail’, ‘com') 
Wes NaN 
In [253]: matches.str.get(1) 
Out[253]: 

Dave google 

Rob gmail 

Steve Bmail 

Nes NaN 

In [254]: matches.str[o] 

out[254] : 

Dave dave 

Rob rob 

Steve steve 

Wes NaN 
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你 可 以 利用 下 面 这 种 代码 对 字符 串 进行 子 串 截取 : 


In [255]: data.str[:5] 


Out[255]: 

Dave dave@ 
Rob rob@g 
Steve steve 
Wes NaN 


表 7-5 介 绍 了 矢量 化 的 字符 串 方法 。 
表 7-5: 矢量 化 的 字符 串 方法 


方法 说 明 

cat 实现 元 素 级 的 字符 串 连 接 操作 ， 可 指定 分 隔 符 

contains 返回 表示 各 字符 串 是 否 含 有 指定 模式 的 布尔 型 数组 

count 模式 的 出 现 次 数 

endswith 、startswith ”相当 于 对 各 个 元 素 执行 xendswith(pattern) 或 x.startswith(pattern) 
findall 计算 各 字符 串 的 模式 列表 

get 获取 各 元 素 的 第 i 个 字符 

join 根据 指定 的 分 隔 符 将 Series 中 各 元 素 的 字符 串 连接 起 来 

len 计算 各 字符 串 的 长 度 

lower、upper 转换 大 小 写 。 相 当 于 对 各 个 元 素 执行 xlower() 或 x.upper() 
match 根据 指定 的 正则 表达 式 对 各 个 元 素 执行 re.match 

pad 在 字符 串 的 左边 、 右 边 或 左右 两 边 添加 空白 符 

center 相当 于 pad(side='both') 

repeat 重复 值 。 例 如 ，s.str.repeat(3) 相 当 于 对 各 个 字符 串 执行 x * 3 
replace 用 指定 字符 串 替换 找到 的 模式 

slice 对 Series 中 的 各 个 字符 串 进行 子 串 截取 

split 根据 分 隔 符 或 正则 表达 式 对 字符 串 进行 拆 分 


strip 、rstrip、lstrip ”去 除 空白 符 ， 包 括 换行 符 。 相 当 于 对 各 个 元 素 执 行 x.strip()、 
Xx.rstrip()、x.lstrip() 


示例 : USDA 食 品 数 据 库 


美国 农业 部 (USDA) 制作 了 一 份 有 关 食 物 营养 信息 的 数据 库 。Ashley Williams (一 
名 来 自 英国 的 技术 牛人 ) 制作 了 该 数据 的 JSON 版 (hrip://ashleyw.co.uk/project/food- 
nutrient-database) 。 其 中 的 记录 如 下 所 示 : 
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"id": 21441, 

"description": “KENTUCKY FRIED CHICKEN, Fried Chicken, EXTRA CRISPY, Wing, meat and 
skin with breading”, 

"tags": ["KFC"]， 

“manufacturer": “Kentucky Fried Chicken", 

"group": "Fast Foods"， 

"portions": [ 








{ 
"amount": 1, 
"unit": "wing, with skin", 
"grams": 68.0 
小 
]， 
?nutrients": [ 
器 


"value": 20.8， 

"units": "g”, 
"description": "Protein", 
"group": "Composition" 


小 


fs 


每 种 食物 都 带 有 若干 标识 性 属性 以 及 两 个 有 关 营 养 成 分 和 分 量 的 列表 。 这 种 形式 的 数据 
不 是 很 适合 分 析 工 作 ， 因 此 我 们 需要 做 一 些 规整 化 以 使 其 具有 更 好 用 的 形式 。 


从 上 面 列举 的 那个 网 址 下 载 并 解压 数据 之 后 ， 你 可 以 用 任何 喜欢 的 JSON 库 将 其 加 载 到 
Python 中 。 我 用 的 是 Python 内 置 的 json 模 块 : 


In [256]: import json 


In [257]: db = json.load(open('cho7/foods-2011-10-03.json')) 


In [258]: len(db) 
Out[258]: 6636 


db 中 的 每 个 条 目 都 是 一 个 含有 某 种 食物 全 部 数据 的 字典 。nutrients 字 段 是 一 个 字典 列 
表 ， 其 中 的 每 个 字典 对 应 一 种 营养 成 分 : 


In [259]: db[o].keys() 
out[259] : 
[u'portions", 
u'description’, 
"tags 
u'nutrients', 


umanufacturer'] 
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In [260]: db[o]['nutrients'][o] 
Out[260]: 

{u'description’: u'Protein’, 
u'group': u'Composition’, 
u'units': ug 

u'value': 25.18} 


In [261]: nutrients = DataFrame(db[o]['nutrients']) 


In [262]: nutrients[:7] 


Out[262] : 

description group units 。 value 
0 Protein Composition 8 25.18 
4 Total lipid (fat) Composition g 29.20 
2 Carbohydrate, by difference Composition gg 3.06 
3 Ash other gg 3.28 
4 Energy Energy kcal 376.00 
5 Water Composition  g 39.28 
6 Energy Energy kKk] 1573.00 


在 将 字典 列表 转换 为 DataFrame 时 ， 可 以 只 抽取 其 中 的 一 部 分 字段 。 这 里 ， 我 们 将 取出 
食物 的 名 称 、 分 类 、 编 号 以 及 制造 商 等 信息 : 





In [263]: info_keys = ['description', ‘group', 'id', ‘manufacturer'] 
In [264]: info = DataFrame(db，columns=info_keys) 


In [265]: info[:5] 
Out[265]: 
description group id manufacturer 

0 Cheese, caraway Dairy and Egg Products 1008 

1 Cheese, cheddar Dairy and Egg Products 1009 

2 Cheese, edam Dairy and Egg Products 1018 

3 Cheese, feta Dairy and Egg Products 1019 

4 Cheese, mozzarella, part skim milk Dairy and Egg Products 1028 


In [266]: info 

Out[266]: 

<class "pandas.core.frame.DataFrame'> 
Int64Index: 6636 entries, 0 to 6635 
Data columns: 


description 6636 non-null values 
group 6636 non-null values 
id 6636 non-null values 


manufacturer 5195 non-null values 
dtypes: int64(1), object(3) 


通过 value_counts， 你 可 以 查看 食物 类 别 的 分 布 情况 : 


In [267]: pd.value counts(info.group)[:10] 


Out[267]: 
Vegetables and Vegetable Products 812 
Beef Products 618 
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Baked Products 496 


Breakfast Cereals 403 
Legumes and Legume Products 365 
Fast Foods 365 
Lamb, Veal, and Game Products 345 
Sweets 341 
Pork Products 328 
Fruits and Fruit Juices 328 


现在 ， 为 了 对 全 部 营养 数据 做 一 些 分 析 ， 最 简单 的 办 法 是 将 所 有 食物 的 营养 成 分 整合 到 
一 个 大 表 中 。 我 们 分 儿 个 步骤 来 实现 该 目的 。 首 先 ， 将 各 食物 的 营养 成 分 列表 转换 为 一 
个 DataFrame， 并 添加 一 个 表示 编号 的 列 ， 然 后 将 该 DataFrame 添 加 到 一 个 列表 中 。 最 后 
通过 concat 将 这 些 东 西 连接 起 来 就 可 以 了 : 


nutrients = [] 


for rec in db: 
fnuts = DataFrame(rec['nutrients']) 
fnuts['id'] = rec["id'] 
nutrients.append(fnuts) 


nutrients = pd.concat(nutrients, ignore_index=True) 
如 果 一 切 顺 利 的话 ，nutrients 应 该 是 下 面 这 样 的 : 


In [269]: nutrients 

Out[269]: 

<class 'pandas.core.frame.DataFrane'> 
Int64Index: 389355 entries, 0 to 389354 
Data columns: 

description 389355 non-null values 


Broup 389355 non-null values 
units 389355 non-null values 
value 389355 non-null values 
id 389355 non-null values 


dtypes: float64(1), int64(1), object(3) 
我 发 现 这 个 DataFrame 中 无 论 如 何 都 会 有 一 些 重复 项 ， 所 以 直接 丢弃 就 可 以 了 : 


In [270]: nutrients.duplicated().sum() 
out[270]: 14179 


In [271]: nutrients = nutrients.drop_duplicates() 


由 于 两 个 DataFrame 对 象 中 都 有 “group” 和 “description”， 所 以 为 了 明确 到 底 谁 是 
谁 ， 我 们 需要 对 它们 进行 重 命名 : 





food', 


In [272]: col_mapping = {'description’ 
二 ‘feroup'} 


"group 
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In [273]: info = info.rename(columns=col mapping, copy=False) 


In [274]: info 

Out[274]: 

<class ‘pandas.core.frame.DataFrame'> 
Int64Index: 6636 entries, 0 to 6635 
Data columns: 


food 6636 non-null values 
feroup 6636 non-null values 
id 6636 non-null values 


manufacturer 5195 non-null values 
dtypes: int64(1), object(3) 


In [275]: col_mapping = {'description’ : 'nutrient'， 
sh ‘group’ : ‘nutgroup'} 


In [276]: nutrients = nutrients.rename(columns=col_mapping, copy=False) 


In [277]: nutrients 

Out[277]: 

<class "pandas.core.frame.DataFrame'y 
Int64Index: 375176 entries, 0 to 389354 
Data columns: 

nutrient 375176 non-null values 
nutgroup 375176 non-null values 


units 375176 non-null values 
value 375176 non-null values 
id 375176 non-null values 


dtypes: float64(1), int64(1), object(3) 
做 完 这 些 事情 之 后 ， 就 可 以 将 info 跟 nutrients 合 并 起 来 : 


In [278]: ndata = pd.merge(nutrients, info, on='id', how='outer') 


In [279]: ndata 

Out[279]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 375176 entries, 0 to 375175 
Data columns: 


nutrient 375176 non-null values 
nutgroup 375176 non-null values 
units 375176 non-null values 
value 375176 non-null values 
id 375176 non-null values 
food 375176 non-null values 
fgroup 375176 non-null values 


manufacturer 293054 non-null values 
dtypes: float64(1), int64(1), object(6) 


In [280]: ndata.ix[30000] 


Out[280]: 

nutrient Folic acid 
nutgroup Vitamins 
units mcg 
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Value 0 
id 5658 
food Ostrich, top loin, cooked 
fgroup Poultry Products 
manufacturer 


Name: 30000 
接 下 来 的 两 章 中 将 介绍 切片 和 切 块 、 聚 合 、 图 形 化 方面 的 工具 ， 所 以 在 你 掌握 了 那些 方 
法 之 后 可 以 再 用 这 个 数据 集 来 练 练 手 。 比 如 说 ， 我 们 可 以 根据 食物 分 类 和 营养 类 型 画 出 
- 张 中 位 值 图 (如 图 7-1 所 示 ) : 








foroup 


Vegetables and Vegetable product 
Soups, Sauces, and Gravies| 
Fruits and Fruit Juices| 
Beverages| 

Fats and Os}_ 








图 7-1: 根据 营养 分 类 得 出 的 锌 中 位 值 


In [281]: result = ndata.groupby(['nutrient’, "fgroup'])["value'].quantile(0.5) 


In [282]: result['Zinc, Zn'].order().plot(kind="barh’) 
只 要 稍微 动 一 动脑 子 ， 就 可 以 发 现 各 营养 成 分 最 为 丰富 的 食物 是 什么 了 : 
by_nutrient = ndata.groupby([ "nutgroup"， "nutrient ]) 


get_maximum = lambda x: x.xs(x.value.idxmax()) 
get_minimum = lambda x: x.xs(x.value.idxmin()) 


max_foods = by_nutrient.apply(get_maximum)[['value’, ‘food']] 

# 让 food 小 一 点 

max_foods. food = max_foods.food.str[:50] 
由 于 得 到 的 DataFrame 很 大 ， 所 以 不 方便 在 书 里 面 全 部 打印 出 来 。 这 里 
Acids” 营 养分 组 : 


给 出 “Amino 
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In [284]: max_foods.ix['Amino Acids']['food'] 


out[284] : 
nutrient 
Alanine 
Arginine 
Aspartic acid 
Cystine 
Glutamic acid 
Glycine 
Histidine 
Hydroxyproline 
Isoleucine 
Leucine 
Lysine 
Methionine 
Phenylalanine 
Proline 
Serine 
Threonine 
Tryptophan 
Tyrosine 
Valine 

Name: food 


Gelatins, dry powder, unsweetened 
Seeds, sesame flour, low-fat 

Soy protein isolate 

Seeds, cottonseed flour, low fat (glandless) 

Soy protein isolate 

Gelatins, dry powder, unsweetened 

Whale, beluga, neat, dried (Alaska Native) 
KENTUCKY FRIED CHICKEN, Fried Chicken, ORIGINAL R 
Soy protein isolate, PROTEIN TECHNOLOGIES INTERNA 
Soy protein isolate, PROTEIN TECHNOLOGIES INTERNA 
Seal, bearded (0ogruk), meat, dried (Alaska Nativ 
Fish, cod, Atlantic, dried and salted 

Soy protein isolate, PROTEIN TECHNOLOGIES INTERNA 
Gelatins, dry powder, unsweetened 

Soy protein isolate, PROTEIN TECHNOLOGIES INTERNA 
Soy protein isolate, PROTEIN TECHNOLOGIES INTERNA 
Sea lion, Steller, meat with fat (Alaska Native) 
Soy protein isolate, PROTEIN TECHNOLOGIES INTERNA 
Soy protein isolate, PROTEIN TECHNOLOGIES INTERNA 
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绘图 和 可 视 化 





绘图 是 数据 分 析 工 作 中 最 重要 的 任务 之 一 ， 是 探索 过 程 的 一 部 分 ， 例 如 ， 帮 助 我 们 找 出 
异常 值 、 必 要 的 数据 转换 、 得 出 有 关 模 型 的 idea 等 。 此 外 ， 还 可 以 利用 诸如 d3js (http:// 
d3js.or8/) 之 类 的 工具 为 Web 应 用 构建 交互 式 图 像 。Python 有 许多 可 视 化 工具 (参见 本 章 
末尾 ) ,但 是 我 主要 讲解 matplotlib (http://matplotlib.sourceforge.net) 。 


matplotlib 是 一 个 用 于 创建 出 版 质量 图 表 的 桌面 绘图 包 (主要 是 2D 方 面 ) 。 该 项 目 是 由 
John Hunter 于 2002 年 启动 的 ， 其 目的 是 为 Python 构建 一 个 MATLAB 式 的 绘图 接口 。 从 那 
时 起 ，John Hunter、Fernando Pérez (IPython 的 创始 人 ) 等 许多 人 就 一 起 合作 ， 共 同 致 
力 于 将 IPython 和 matplotlib 结 合 起 来 以 提供 一 种 功能 丰富 且 高 效 的 科学 计算 环境 。 如 果 
结合 使 用 一 种 GUI 工具 包 (如 IPython) ，matplotlib 还 具有 诸如 缩放 和 平移 等 交互 功能 。 
它 不 仅 支持 各 种 操作 系统 上 许多 不 同 的 GUI 后 端 ， 而 且 还 能 将 图 片 导出 为 各 种 常见 的 矢 
量 (vector) 和 光栅 (raster) 图 : PDF、SVG、JPG、PNG、BMP、GIF 等 。 本 书 中 的 大 
部 分 图 形 都 是 用 它 生成 的 。 


matplotlib 还 有 许多 插件 工具 集 ， 如 用 于 3D 图 形 的 mplot3d 以 及 用 于 地 图 和 投影 的 
basemap。 我 将 在 本 章 末尾 介绍 一 个 利用 basemap 在 地 图 上 绘制 数据 和 读 取 shapefiles 的 例 
子 。 


要 使 用 本 章 中 的 代码 示例 ， 请 确保 你 的 LIPython 是 以 PyIab 模 式 启动 的 (ipython 
--pylab) ， 或 通过 %gui 魔 术 命令 打开 了 GUI 事件 循环 集成 。 


matplotlib API 入 门 
使 用 matplotlib 的 办 法 有 很 多 种 ， 最 常用 的 方式 是 Pylab 模 式 的 IPython (ipython 
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--pylab) 。 这 样 会 将 IPython 配 置 为 使 用 你 所 指定 的 matplotlib GUI 后 端 (Tk、 
wxPython、PyQt、Mac OS X native、GTK) 。 对 大 部 分 用 户 而 言 ， 默 认 的 后 端 就 已 经 
够 用 了 。Pylab 模 式 还 会 向 IPython 引 入 一 大 堆 模 块 和 函数 以 提供 一 种 更 接近 于 MATLAB 
的 界面 ( 见 图 8-1) 。 绘 制 一 张 简单 的 图 表 即 可 测试 是 否 一 切 准 备 就 绪 : 


plot(np.arange(10)) 
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图 8-1: 一 张 比 较 复杂 的 matplotlib 金 融 曲线 图 


如 果 一 切 都 没有 问题 ， 就 会 弹出 一 个 新 窗口 ， 其 中 绘制 的 是 一 条 直线 。 你 可 以 用 鼠标 或 
输入 close0 来 关闭 它 。matplotlib API 函 数 (如 plot 和 close) 都 位 于 matplotlib.pyplot 模 块 
中 ， 其 通常 的 引入 约定 是 : 


import matplotlib.pyplot as plt 


虽然 pandas 的 绘图 函数 ( 稍 后 介绍 ) 能 够 处 理 许多 普通 的 绘图 任务 ， 但 如 果 需 要 自 定义 
一 些 高 级 功能 的 话 就 必须 学 习 matplotlib API。 





注意 ， 虽 然 本 书 没有 详细 地 讨论 matplouib 的 各 种 功能 ， 但 是 以 将 你 引入 门 。matplotlib 的 示例 库 和 
文档 是 成 为 绘图 高 手 的 最 佳 学 习 资源 。 





Figure 和 Subplot 
matplotlib 的 图 像 都 位 于 Figure 对 象 中 。 你 可 以 用 plt.figure 创 建 一 个 新 的 Figure: 


In [13]: fig = plt.figure() 





这 时 会 弹出 一 个 空 窗 口 。plt.figure 有 一 些 选项 ， 特 别 是 figsize， 它 用 于 确保 当 图 片 保 
存 到 磁盘 时 具有 一 定 的 大 小 和 纵横 比 。matplotlib 中 的 Figure 还 支持 一 种 MATLAB 式 的 编 
号 架构 (例如 plt.figure(2)) 。 通 过 plt.gcf() 即 可 得 到 当前 Figure 的 引用 。 


不 能 通过 空 Figure 绘 图 。 必 须 用 add_subplot 创 建 一 个 或 多 个 subplot 才 行 : 


In [14]: ax1 = fig.add_subplot(2, 2, 1) 


这 条 代码 的 意思 是 : 图 像 应 该 是 2 x 2 的 ， 且 当前 选中 的 是 4 个 subplot 中 的 第 一 个 (编号 


从 1 开始 ) 。 如 果 再 把 后 面 两 个 subplot 也 创建 出 来 ， 最 终 得 到 的 图 像 如 图 8-2 所 示 。 
In [15]: ax2 = fig.add_subplot(2, 2, 2) 


In [16]: ax3 = fig.add_subplot(2, 2, 3) 


























图 8-2: 带 有 三 个 subplot 的 Figure 
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如 果 这 时 发 出 一 条 绘图 命令 (如 plt.plot([1.5，3.5，-2，1.6])) ，matplotlib 就 会 在 
最 后 一 个 用 过 的 subplot (如 果 没 有 则 创建 一 个 ) 上 进行 绘制 。 因 此 ， 如 果 我 们 执行 下 列 


命令 ， 你 就 会 得 到 如 图 8-3 所 示 的 结果 : 


In [17]: from numpy.random import randn 


In [18]: plt.plot(randn(50).cunsun(), ‘k--") 
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图 8-3: 绘制 一 次 之 后 的 图 像 
“k--” 是 一 个 线 型 选项 ， 用 于 告诉 matplotlib 绘 制 黑色 虚线 图 。 上 面 那些 由 fig.add_ 


subplot 所 返回 的 对 象 是 AxesSubplot 对 象 ， 直 接 调 用 它们 的 实例 方法 就 可 以 在 其 他 空 着 
的 格子 里 面 画图 了 ， 如 图 8-4 所 示 : 


In [19]: _ = axl.hist(randn(100)，bins=20，color='k"，alpha=0.3) 


In [20]: ax2.scatter(np.arange(30), np.arange(30) + 3 * randn(30)) 
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图 8-4: 继续 绘制 两 次 之 后 的 图 像 
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你 可 以 在 matplotlib 的 文档 中 找到 各 种 图 表 类 型 。 由 于 根据 特定 布局 创建 Figure 和 subplot 
是 一 件 非常 常见 的 任务 ， 于 是 便 出 现 了 一 个 更 为 方便 的 方法 (plt.subplots) ， 它 可 以 
创建 一 个 新 的 Figure， 并 返回 一 个 含有 已 创建 的 subplot 对 象 的 NumPy 数 组 ， 


In [22]: fig, axes = plt.subplots(2, 3) 


In [23]: axes 
out[23]: 
array([[Axes(0.125,0.536364;0.227941x0.363636), 
Axes (0.398529,0.536364;0.227941x0.363636) ， 
Axes (0.672059,0.536364;0.227941x0.363636)]， 
[Axes (0.125,0.1;0.227941x0.363636)， 
Axes (0.398529,0.1;0.227941x0.363636)， 
Axes (0.672059,0.1;0.227941x0.363636)]], dtype=object) 


这 是 非常 实用 的 ， 因 为 可 以 轻松 地 对 axes 数 组 进行 索引 ， 就 好 像 是 一 个 二 维 数组 一 样 ， 
例如 ，axes[0，1]。 你 还 可 以 通过 sharex 和 sharey 指 定 subplot 应 该 具有 相同 的 X 轴 或 Y 
轴 。 在 比较 相同 范围 的 数据 时 ， 这 也 是 非常 实用 的 ， 否 则 ，matplotlib 会 自动 缩放 各 图 表 
的 界限 。 有 关 该 方法 的 更 多 信息 ， 请 参见 表 8-1。 


表 8-1: pyplot.subplots 的 选项 





参数 说 明 
nrows subplot 的 行 数 

ncols subplot 的 列 数 

sharex 所 有 subplot 应 该 使 用 相同 的 X 轴 刻度 (调节 xlim 将 会 影响 所 有 subplot) 
sharey 所 有 subplot 应 该 使 用 相同 的 Y 轴 刻度 (调节 ylim 将 会 影响 所 有 subplot) 
subplot_kw ”用 于 创建 各 subplot 的 关键 宇 字典 

fig_kw 创建 figure 时 的 其 他 关键 字 ， 如 plt.subplots(2,2,figsize=(8,6)) 

调整 subplot 周 围 的 间距 


默认 情况 下 ，matplotlib 会 在 subplot 外 围 留 下 一 定 的 边 距 ， 并 在 subplot 之 间 留 下 一 定 的 
间距 。 间 距 跟 图 像 的 高 度 和 宽度 有 关 ， ， 如 果 你 调整 了 图 像 大 小 (不管 是 编程 还 是 
手工 ) ， 间 距 也 会 自动 调整 。 利 用 Figure 的 subplots_adjust 方 法 可 以 轻而易举 地 修改 间 
距 ， 此 外 ， 它 也 是 个 顶级 函数 : 





subplots adjust(left=None, bottom=None, right=None, top=None, wspace=None, 
hspace=None) 


wspace 和 hspace 用 于 控制 宽度 和 高 度 的 百分比 ， 可 以 用 作 subplot 之 间 的 间距 。 下 面 是 一 
个 简单 的 例子 ， 其 中 我 将 间距 收缩 到 了 0 (如 图 8-5 所 示 ) : 





绘图 和 可 视 化 | 235 


fig, axes = plt.subplots(2, 2, sharex=True, sharey=True) 
for i in range(2): 
for j in range(2): 
axes[i, j].hist(randn(500), bins=50, color="k*, alpha=0.5) 
plt.subplots_adjust(wspace=0, hspace=0) 




















图 8-5: 各 subplot 之 间 没 有 间距 


不 难看 出 ， 其 中 的 轴 标签 重 全 了 。matplotlib 不 会 检查 标签 是 否 重 又 ， 所 以 对 于 这 种 情 
况 ， 你 只 能 自己 设 定 刻度 位 置 和 刻度 标签 。 后 面 儿 节 将 会 详细 介绍 该 内 容 。 


颜色 、 标 记 和 线 型 
matplotlib 的 plot 函 数 接受 一 组 X 和 Y 坐 标 ， 还 可 以 接受 一 个 表示 颜色 和 线 型 的 字符 串 缩 
写 。 例 如 ， 要 根据 x 和 y 给 制 绿色 虚线 ， 你 可 以 执行 如 下 代码 : 


ax.plot(x, y, 'g--') 


这 种 在 一 个 字符 串 中 指定 颜色 和 线 型 的 方式 非常 方便 。 通 过 下 面 这 种 更 为 明确 的 方式 也 
能 得 到 同样 的 效果 : 


ax.plot(x, y, linestyle="--", color="g') 


常用 的 颜色 都 有 一 个 缩写 词 ， 要 使 用 其 他 任意 颜色 则 可 以 通过 指定 其 RGB 值 的 形式 使 用 
(例如 ，'#CECECE' ) 。 完 整 的 linestyle 列 表 请 参见 plot 的 文档 。 


线 型 图 还 可 以 加 上 一 些 标记 (marker) ， 以 强调 实际 的 数据 点 。 由 于 matplotlib 创 建 的 是 
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连续 的 线 型 图 (点 与 点 之 间 插 值 ) ， 因 此 有 时 可 能 不 太 容易 看 出 真实 数据 点 的 位 置 。 标 
记 也 可 以 放 到 格式 字符 串 中 ， 但 标记 类 型 和 线 型 必须 放 在 颜色 后 面 (如 图 8-6 所 示 ) : 


In [28]: plt.plot(randn(30).cumsum(), "ko-- ) 


























图 8-6: 带 有 标记 的 线 型 图 示例 
还 可 以 将 其 写成 更 为 明确 的 形式 : 

plot(randn(30) .cumsum(), color="k’, linestyle='dashed', marker="0') 
在 线 型 图 中 ， 非 实际 数据 点 默认 是 按 线性 方式 插值 的 。 可 以 通过 drawstyle 选 项 修改 : 


In [30]: data = randn(30).cumsum() 


In [31]: plt.plot(data, 'k--", label="Default') 
Out[31]: [<matplotlib.lines.Line2D at ox461cddo>] 


In [32]: plt.plot(data, 'k-', drawstyle="'steps-post', label='steps-post') 
Out[32]: [<matplotlib.lines.Line2D at Ox461f350>] 


In [33]: plt.legend(loc='best') 
刻度 、 标 签 和 图 例 


对 于 大 多 数 的 图 表 装 饰 项 ， 其 主要 实现 方式 有 二 : 使 用 过 程 型 的 pyplot 接 口 (MATLAB 
用 户 非常 熟悉 ) 以 及 更 为 面向 对 象 的 原生 matplotlib API。 
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pyplot 接 口 的 设计 目的 就 是 交互 式 使 用 ， 含 有 诸如 xlim、xticks 和 xticklabels 之 类 的 方 
法 。 它 们 分 别 控制 图 表 的 范围 、 刻 度 位 置 、 刻 度 标签 等 。 其 使 用 方式 有 以 下 两 种 : 


。 调用 时 不 带 参数 ， 则 返回 当前 的 参数 值 关 在 。 例 如 ，plt.xlim() 返 回 当前 的 X 轴 绘 


图 范围 。 
。 调用 时 带 参数 ， 则 设置 参数 值 。 因 此 ，plt.xlim([0，10]) 会 将 X 轴 的 范围 设置 为 0 
到 10。 











-- Default 


— steps-post 
a 总 












































图 8-7: 不 同 drawstyle 选 项 的 线 型 图 


所 有 这 些 方 法 都 是 对 当前 或 最 近 创 建 的 AxesSubplot 起 作用 的 。 它 们 各 自 对 应 subplot 对 象 
上 的 两 个 方法 ， 以 xlim 为 例 ， 就 是 ax.get_xlim 和 ax.set_xlim。 我 更 喜欢 使 用 subplot 的 
实例 方法 〈 因 为 我 喜欢 明确 的 事情 ， 而 且 在 处 理 多 个 subplot 时 这 样 也 更 清楚 一 些 ) 。 当 
然 你 完全 可 以 选择 自己 觉得 方便 的 那个 。 


设置 标题 、 轴 标签 、 刻 度 以 及 刻度 标签 

为 了 说 明 轴 的 自 定义 ,我 将 创建 一 个 简单 的 图 像 并 绘制 一 段 随机 漫步 (如 图 8-8 所 示 ) : 
In [34]: fig = plt.figure(); ax = fig.add_subplot(1, 1, 1) 
In [35]: ax.plot(randn(1000).cumsum()) 

译注 1: 前 面 的 参数 是 argument， 后 面 的 参数 是 parameter。 我 觉得 后 面 那个 parameter 不 太 合适 ， 


但 又 实在 想 不 出 更 好 的 表达 方式 。 各 位 读者 可 以 把 后 面 那个 parameter 理 解 为 “当前 配置 
值 ”。 下 面 那 条 也 是 如 此 。 
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图 8-8: 用 于 演示 xticks 的 简单 线 型 图 


要 修改 X 轴 的 刻度 ， 最 简单 的 办 法 是 使 用 set_xticks 和 set_xticklabels。 前 者 告诉 
matplotlib 要 将 刻度 放 在 数据 范围 中 的 哪些 位 置 ， 默 认 情况 下 ， 这 些 位 置 也 就 是 刻度 标 
签 。 但 我 们 可 以 通过 set_xticklabels 将 任何 其 他 的 值 用 作 标 签 





In [36]: ticks = ax.set_xticks([0, 250, 500, 750, 1000]) 


In [7]: labels = ax.set_xticklabels(['one'，'two'，'three'，'four'，'five']， 
a rotation=30，fontsize'snall 


最 后 ， 再 用 set_xlabel 为 X 轴 设置 一 个 名 称 ， 并 用 set_title 设 置 一 个 标题 ; 


In [38]: ax.set_title('My first matplotlib plot') 
Out[38]: <matplotlib. text.Text at Ox7f9190912850> 


In [39]: ax.set xlabel('Stages') 
最 终结 果 如 图 8-9 所 示 。Y 轴 的 修改 方式 与 此 类 似 ， 只 需 将 上 述 代 码 中 的 x 替换 为 y 即 可 。 


添加 图 例 
图 例 (legend) 是 另 一 种 用 于 标识 图 表 元 素 的 重要 工具 。 添 加 图 例 的 方式 有 二 。 最 简单 
的 是 在 添加 subplot 的 时 候 传 和 label 参数 : 


In [40]: filg = plt.figure(); ax = fig.add_subplot(1, 1, 1) 


In [41]: ax.plot(randn(1000).cunsum(), 'k', 1abel="one’) 
Out[41]: [<matplotlib.lines.Line2D at 0x4720a90>] 
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图 8-9: 用 于 演示 xticks 的 简单 线 型 图 


In [42]: ax.plot(randn(1000).cumsum()，'k--'，label='two') 
Out[42]: [<matplotlib.lines.Line2D at Ox4720f90>] 


In [43]: ax.plot(randn(1000).cumsum()，"k.'，1label='three') 
Out[43]: [<matplotlib.lines.Line2D at Ox4723550>] 


在 此 之 后 ， 你 可 以 调用 ax.legend() 或 plt.legend() 来 自动 创建 图 例 : 
In [44]: ax.legend(loc='best') 


如 图 8-10 所 示 。1oc 告 诉 matplotlib 要 将 图 例 放 在 哪 。 如 果 你 不 是 吹 毛 求 症 的 话 ， 
“beat” 是 不 错 的 选择 ， 因 为 它 会 选择 最 不 碍 事 的 位 置 。 要 从 图 例 中 去 除 一 个 或 多 个 元 
素 ， 不 传人 label 或 传人 label='_nolegend_' 即 可 。 


注解 以 及 在 Subplot 上 绘图 

除 标准 的 图 表 对 象 之 外 ， 你 可 能 还 希望 绘制 一 些 自 定义 的 注解 (比如 文本 、 箭 头 或 其 他 
图 形 等 ) 。 

注解 可 以 通过 text、arrow 和 annotate 等 函数 进行 添加 。text 可 以 将 文本 绘制 在 图 表 的 指 
定 坐 标 (x，y)， 还 可 以 加 上 一 些 自 定义 格式 


ax.text(x, y, ‘Hello world!', 
fanily="monospace' , fontsize=10) 
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图 8-10: 带 有 三 条 线 以 及 图 例 的 简单 线 型 图 


注解 中 可 以 既 含 有 文本 也 含有 箭头 。 例 如 ， 我 们 根据 2007 年 以 来 的 标准 普尔 500 指 数 收 
描 价 格 (来 自 Yahoo! Finance) 绘制 一 张 曲线 图 ， 并 标 出 2008 年 到 2009 年 金融 危机 期 间 
的 一 些 重要 日 期 。 结 果 如 图 8-11 所 示 : 





Important dates in 2008-2009 financial crisis 
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图 8-11: 2008 一 2009 年 金融 危机 期 间 的 重要 日 期 








from datetime import datetime 
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fig = plt.figure() 
ax = fig.add_subplot(1, 1, 1) 


data = pd.read_csv('cho8/spx.csv', index_col=0, parse_dates=True) 
spx = data['SpPX'] 


spx.plot(ax=ax, style='k-") 


crisis data = [ 
(datetime(2007, 10, 11), "Peak of bull market’), 
(datetime(2008, 3, 12), 'Bear Stearns Fails')， 
(datetime(2008, 9, 15), "Lehman Bankruptcy ) 





] 


for date, label in crisis_data: 
ax.annotate(label, xy=(date, spx.asof(date) + 50)， 
xytext=(date, spx.asof(date) + 200), 
arrowprops=dict(facecolor="black'), 
horizontalalignment="left', verticalalignment="top’) 


# 放大 到 2007-2010 
ax.set_xlim(['1/1/2007', "1/1/2011'] ) 
ax.set_ylim([600, 1800]) 


ax.set_ title('Important dates in 2008-2009 financial crisis') 
更 多 有 关注 解 的 示例 ， 请 访问 matplotlib 的 在 线 示 例 库 。 


图 形 的 绘制 要 麻烦 一 些 。matplotlib 有 一 些 表示 常见 图 形 的 对 象 。 这 些 对 象 被 称 为 块 
(patch) 。 其 中 有 些 可 以 在 matplotlib.pyplot 中 找到 (如 Rectangle 和 Circle) ， 但 完整 
集合 位 于 matplotlib.patches。 


要 在 图 表 中 添加 一 个 图 形 ， 你 需要 创建 一 个 块 对 象 shp， 然 后 通过 ax.add_patch(shp) 将 
其 添加 到 subplot 中 (如 图 8-12 所 示 ) : 


fig = plt.figure() 
ax = fig.add_subplot(1, 1, 1) 


rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color="k', alpha=0.3) 
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3) 
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]], color='g', alpha=0.5) 


ax.add_patch(rect) 
ax.add_patch(circ) 
ax.add_patch(pgon) 


如 果 查 看 许多 常见 图 表 对 象 的 具体 实现 代码 ， 你 就 会 发 现 它们 其 实 就 是 由 块 组 装 而 成 
的 。 
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图 8-12， 由 三 个 块 图 形 组 成 的 图 
将 图 表 保 存 到 文件 


利用 plt.savefig 可 以 将 当前 图 表 保存 到 文件 。 该 方法 相当 于 Figure 对 象 的 实例 方法 
savefig。 例 如 ， 要 将 图 表 保 存 为 SVG 文 件 ， 你 只 需 输入 : 


plt.savefig('figpath. svg' ) 


文件 类 型 是 通过 文件 扩展 名 推断 出 来 的 。 因 此 ， 如 果 你 使 用 的 是 .pdf， 就 会 得 到 一 个 
PDF 文 件 。 我 在 发 布 图 片 时 最 常用 到 两 个 重要 的 选项 是 dpi (控制 “每 英寸 点 数 ” 分 辨 
率 ) 和 bbox_inches (可 以 剪除 当前 图 表 周 围 的 空白 部 分 ) 。 要 得 到 一 张 带 有 最 小 白 边 
且 分 辩 率 为 400DPI 的 PNG 图 片 ， 你 可 以 : 

plt.savefig('figpath.png', dpi=400, bbox_inches="tight") 
savefig 并 非 一 定 要 写 入 磁盘 ， 也 可 以 写 入 任何 文件 型 的 对 象 ， 比 如 StringI0: 


from io import StringIO 
buffer = StringIO() 
plt.savefig(buffer) 

plot_data = buffer.getvalue() 


这 对 在 Web 上 提供 动态 生成 的 图 片 是 很 实用 的 。 
Figure.savefig 方 法 的 参数 及 说 明 如 表 8-2 所 示 。 
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表 8-2: Figure.savefig 的 选项 





参数 说 明 

fname 含有 文件 路 径 的 字符 串 或 Python 的 文件 型 对 象 。 图 像 格 式 由 文 
件 扩展 名 推断 得 出 ， 例 如 ，.pdf 推 断 出 PDF，.png 推 断 出 PNG 

dpi 图 像 分 辨 率 (每 英寸 点 数 ) ， 默 认为 100 

facecolor、edgecolor 图 像 的 背景 色 ， 默 认为 “w” (白色 ) 

format 显 式 设置 文件 格式 (“png”、“pdf”、“svg”、“ps” 
weps™ roe ) 

bbox_inches 图 表 需 要 保存 的 部 分 。 如 果 设 置 为 “tight”， 则 将 尝试 剪除 图 

表 周围 的 空白 部 分 aetna 
matplotlib 配 置 


matplotlib 自 带 一 些 配色 方案 ， 以 及 为 生成 出 版 质量 的 图 片 而 设 定 的 默认 配置 信息 。 幸 运 
的 是 ， 几 乎 所 有 默认 行为 都 能 通过 一 组 全 局 参数 进行 自 定义 ， 它 们 可 以 管理 图 像 大 小 、 
subplot 边 距 、 配 色 方案 、 字 体 大 小 、 网 格 类 型 等 。 操 作 matplotlib 配 置 系统 的 方式 主要 有 
两 种 。 第 一 种 是 Python 编程 方式 ， 即 利用 rc 方法 。 比 如 说 ， 要 将 全 局 的 图 像 默 认 大 小 设 
置 为 10 x 10， 你 可 以 执行 : 


plt.rc('figure', figsize=(10, 10)) 


rc 的 第 一 个 参数 是 希望 自 定义 的 对 象 ， 如 'figure'、'axes'、 'xtick’、'ytick'、 
'grid'、'legend' 等 。 其 后 可 以 跟 上 一 系列 的 关键 字 参 数 。 最 简单 的 办 法 是 将 这 些 选项 
写成 一 个 字典 : 





font_options = {'fanily' : "monospace'， 
"weight，: “bold'， 
"size' 3 "small'} 


plt.rc('font', **font_options) 


要 了 解 全 部 的 自 定义 选项 ， 请 查阅 matplotlib 的 配置 文件 matplotlibre (位 于 matplot1ib/ 
mpl-data 目 录 中 ) 。 如 果 对 该 文件 进行 了 自 定义 ， 并 将 其 放 在 你 自己 的 .matplotlibrc 目 
录 生 这? 中 ， 则 每 次 使 用 matplotlib 时 就 会 加 载 该 文件 。 


pandas 中 的 绘图 函数 


不 难看 出 ，matplotlib 实 际 上 是 一 种 比较 低级 的 工具 。 要 组 装 一 张 图 表 ， 你 得 用 它 的 各 种 
基础 组 件 才 行 : 数据 展示 ( 即 图 表 类 型 : 线 型 图 、 柱 状 图 、 盒 形 图 、 散 布 图 、 等 值 线 图 
等 ) 、 图 例 、 标 题 、 刻 度 标签 以 及 其 他 注解 型 信息 。 这 是 因为 要 根据 数据 制作 一 张 完整 


译注 2: 正确 的 目录 名 是 .matplotlib。 
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图 表 通 常 都 需要 用 到 多 个 对 象 。 在 pandas 中 ， 我 们 有 行 标签 、 列 标签 以 及 分 组 信息 (可 
能 有 ) 。 这 也 就 是 说 ， 要 制作 一 张 完整 的 图 表 ， 原 本 需要 一 大 堆 的 matplotlib 代 码 ， 现 在 
只 需 一 两 条 简洁 的 语句 就 可 以 了 。pandas 有 许多 能 够 利用 DataFrame 对 象 数据 组 织 特点 来 
创建 标准 图 表 的 高 级 绘图 方法 (这 些 函 数 的 数量 还 在 不 断 增加 ) 。 





警告 ， 到 目前 为 止 ，pandas 团 队 已 经 在 绘图 功能 上 下 了 很 大 工夫 。 一 个 参加 了 “2012 Google 
Summer of Code 计 划 ” 的 学 生 正在 夜以继日 地 添加 新 功能 ， 并 使 该 接口 具有 更 好 的 一 致 性 
和 可 用 性 。 因 此 ， 本 书 中 的 这 部 分 代码 可 能 很 快 就 要 过 时 了 。 如 果 那 样 的 话 ，pandas 在 线 
文档 将 会 是 最 好 的 学 习 资源 。 


线 型 图 
Series 和 DataFrame 都 有 一 个 用 于 生成 各 类 图 表 的 plot 方 法 。 默 认 情况 下 ， 它 们 所 生成 的 
是 线 型 图 (如 图 8-13 所 示 ) : 

In [55]: s = Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10)) 

In [56]: s.plot() 
该 Series 对 象 的 索引 会 被 传 给 matplotlib， 并 用 以 绘制 X 轴 。 可 以 通过 use_index=False 楚 
用 该 功能 。X 轴 的 刻度 和 界限 可 以 通过 xticks 和 x1im 选 项 进行 调节 ，Y 轴 就 用 yticks 和 
ylim。plot 参 数 的 完整 列表 请 参见 表 8-3。 我 只 会 讲解 其 中 几 个 ， 剩 下 的 就 留 给 读者 自己 
去 研究 了 。 
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图 8-13: 简单 的 Series 图 表示 例 
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pandas 的 大 部 分 绘图 方法 都 有 一 个 可 选 的 ax 参数 ， 它 可 以 是 一 个 matplotlib 的 subplot 对 
象 。 这 使 你 能 够 在 网 格 布局 中 更 为 灵活 地 处 理 subplot 的 位 置 。 


DataFrame 的 plot 方 法 会 在 一 个 subplot 中 为 各 列 绘制 一 条 线 ， 并 自动 创建 图 例 (如 图 
8-14 所 示 ) : 
In [57]: df = DataFrame(np.random.randn(10, 4).cumsum(0), 


columns=['A’, 'B', 'C', 'D'], 
index=np.arange(0, 100, 10)) 





In [58]: df.plot() 





注意 : plot 的 其 他 关键 字 参 数 会 被 传 给 相应 的 matplotlib 绘 图 函数 ， 所 以 要 更 深入 地 自 定义 图 表 ， 
就 必须 学 习 更 多 有 关 matplotlib API 的 知识 。 
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图 8-14: 简单 的 DataFrame 图 表示 例 
表 8-3: Series.plot 方 法 的 参数 
参数 说 明 
label 用 于 图 例 的 标签 
ax 要 在 其 上 进行 绘制 的 matplotlib subplot 对 象 。 如 果 没 有 设置 ， 则 使 用 当前 
matplotlib subplot 
style 将 要 传 给 matplotlib 的 风格 字符 串 (如 'ko--') 


alpha 图 表 的 填充 不 透明 度 (0 到 1 之 间 ) 
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表 8-3: Series.plot 方 法 的 参数 ( 续 ) 


参数 说 明 

kind 可 以 是 \ine'、'"bar、'barh'、'kde' 
logy 在 Y 轴 上 使 用 对 数 标尺 
use_index ”将 对 象 的 索引 用 作 刻 度 标签 

rot 旋转 刻度 标签 (0 到 360) 


xticks 用 作 X 轴 刻度 的 值 
yticks 用 作 Y 轴 刻度 的 值 


xlim X 轴 的 界限 (例如 [0, 10]) 
ylim Y 轴 的 界限 
grid 显示 轴 网 格 线 (默认 打开 ) 





DataFrame 还 有 一 些 用 于 对 列 进行 灵活 处 理 的 选项 ， 例 如 ， 是 要 将 所 有 列 都 给 制 到 


subplot 中 还 是 创建 各 自 的 subplot。 详 细 信 息 请 参见 表 8-4。 
表 8-4: 专用 于 DataFrame 的 plot 的 参数 


参数 说 明 

subplots 将 各 个 DataFrame 列 绘制 到 单独 的 subplot 中 

sharex 如 果 subplots=True， 则 共用 同一 个 X 轴 ， 包 括 刻 度 和 界限 
sharey 如 果 subplots=True， 则 共用 同一 个 Y 轴 

figsize 表示 图 像 大 小 的 元 组 

title 表示 图 像 标题 的 字符 串 

legend 添加 一 个 subplot 图 例 (默认 为 True) 


sort_columns ”以 字母 表 顺序 绘制 各 列 ， 默 认 使 用 当前 列 顺序 





注意 ， 有 关 时 间 序 列 的 绘制 技术 ， 请 参见 第 10 章 。 





柱状 图 


个 


在 生成 线 型 图 的 代码 中 加 上 kind='"bar" (垂直 柱状 图 ) 或 kind='barh' (水 平 柱状 图 ) 即 
可 生成 柱状 图 。 这 时 ，Series 和 DataFrame 的 索引 将 会 被 用 作 X (bar) 或 Y (barh) 刻度 


(如 图 8-15 所 示 ) : 


In [59]: fig, axes = plt.subplots(2, 1) 


In [60]: data = Series(np.random.rand(16), index=list('abcdefghijklmnop')) 
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In [61]: data.plot(kind='bar'，ax=axes[0]，color='k'，alpha=0.7) 
Out[61]: <matplotlib.axes.AxesSubplot at Ox4ee7750> 


In [62]: data.plot(kind='barh'，ax=axes[1]，color='k'，alpha=0.7) 


注意 : 更 多 有 关 plt.subplots 函 数 以 及 matplotlib 轴 和 图 像 的 











对 于 DataFrame， 柱 状 图 会 将 每 一 行 的 值 分 为 一 组 ， 如 图 8-16 所 示 : 


In [63]: df = DataFrame(np.randomn.rand(6，4)， 
index=['one’, ‘two', 'three’, 'four', "five’, ‘six'], 
colunns=pd. Index([ A’, 'B', 'C', 'D'], name='Genus’)) 





In [64]: df 

Out[64]: 

Genus A B < D 
one 0.301686 0.156333 0.371943 0.270731 
two 0.750589 0.525587 0.689429 0.358974 
three 0.381504 0.667707 0.473772 0.632528 
four 0.942408 0.180186 0.708284 0.641783 
five 0.840278 0.909589 0.010041 0.653207 
Six 0.062854 0.589813 0.811318 0.060217 


In [65]: df.plot(kind='bar') 











oO voncn sor _x_3oom 








图 8-15: 水 平和 垂直 柱状 图 示例 


注意 ，DataFrame 各 列 的 名 称 “Genus” 被 用 作 了 图 例 的 标题 。 设 置 stacked=True 即 可 为 
DataFrame 生 成 堆积 柱状 图 ， 这 样 每 行 的 值 就 会 被 堆积 在 一 起 (如 图 8-17 所 示 ) : 


In [67]: df.plot(kind="barh', stacked=True, alpha=0.5) 
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注意 : 柱状 图 有 个 非常 不 错 的 用 法 ， 利用 value_counts 图 形 化 显示 Series 中 各 值 的 出 现 频率 ， 比 
如 s.value_counts ().plot(kind='bar')。 

再 以 本 书 前 面 用 过 的 那个 有 关 小 费 的 数据 集 为 例 主 让 ， 假 设 我 们 想 要 做 一 张 堆 积 柱状 图 

以 展示 每 天 各 种 聚会 规模 的 数据 点 的 百分比 。 我 用 read_csv 将 数据 加 载 进来 ， 然 后 根据 

日 期 和 聚会 规模 创建 一 张 交叉 夫 






In [68]: tips = pd.read_csv('cho8/tips.csv') 
In [69]: party_counts = pd.crosstab(tips.day, tips.size) 


In [70]: party_counts 


out[70]: 

We 2 3 45 6 
day 

Fri 1316 1 100 
Sat 2 5 18 13 1 0 
Sun 0 39 15 18 3 1 
Thur 1 48 4 5 1 3 


# 1 个 人 和 6 个 人 的 聚会 都 比较 少 
In [71]: party_counts = party_counts.ix[:, 2:5] 

















图 8-16: DataFrame 柱 状 图 示例 


译注 3: 本 书 前 面 没 有 用 过 这 个 数据 集 ， 读 者 不 用 找 了 
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图 8-17: DataFrame 堆 积 柱状 图 示例 
然后 进行 规格 化 ， 使 得 各 行 的 和 为 1 (必须 转换 成 浮 点 数 ， 以 避免 Python 2.7 中 的 整数 除 
法 问题 ) ， 并 生成 图 表 (如 图 8-18 所 示 ) : 


# 规格 化 成 “和 为 1” 
In [72]: party_pcts = party_counts.div(party_counts.sum(1).astype(float), axis=0) 


In [73]: party_pcts 


Out[73]: 

size 2 家 4 5 
day 

Pri 0.888889 0.055556 0.055556 0.000000 
Sat 0.623529 0.211765 0.152941 0.011765 
Sun 0.520000 0.200000 0.240000 0.040000 
Thur 0.827586 0.068966 0.086207 0.017241 


In [74]: party_pcts.plot(kind="bar', stacked=True) 


于 是 ， 通 过 该 数据 集 就 可 以 看 出 ， 友 会 规模 在 周末 会 变 大 。 
直方 图 和 密度 图 


直方 图 (histogram) 是 一 种 可 以 对 值 频率 进行 离散 化 显示 的 柱状 图 。 数 据点 被 拆 分 到 离 
散 的 、 间 隔 均 匀 的 面 元 中 ,绘制 的 是 各 面 元 中 数据 点 的 数量 。 再 以 前 面 那个 小 费 数据 为 
例 ， 通 过 Series 的 hist 方 法 ， 我 们 可 以 生成 一 张 “ 小 费 占 消费 总 额 百分比 ” 主 尘 * 的 直方 图 
(如 图 8-19 所 示 ) : 


译注 4: 仔细 观察 数据 可 以 发 现 ， 实 际 并 不 是 这 样 的 ， 因 为 这 里 的 小 费 可 能 不 在 消费 总 额 里 面 。 仅 
仅 当 做 一 个 例子 即 可 不 必 深 完 。 
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图 8-18: 每 天 各 种 聚会 规模 的 比例 
In [76]: tips['tip pct'] = tips['tip’] / tips['total_bill'] 


In [77]: tips['tip_pct'].hist(bins=50) 











图 8-19: 小 费 百分比 的 直方 图 





与 此 相关 的 一 种 图 表 类 型 是 密度 图 ， 它 是 通过 计算 “可 能 会 产生 观测 数据 的 概率 分 
布 的 估计 ”而 产生 的 。 一 般 的 过 程 是 将 该 分 布 近似 为 一 组 核 〈 即 诸如 正 态 (高 斯 ) 分 
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布 之 类 的 较为 简单 的 分 布 ) 。 因 此 ， 密 度 图 也 被 称 作 KDE (Kernel Density Estimate， 
核 密度 估计 ) 图 。 调 用 plot 时 加 上 kind='kde' 即 可 生成 一 张 密度 图 (标准 混合 正 态 分 布 
KDE) ， 如 图 8-20 所 示 : 

In [79]: tips['tip_pct'].plot(kind='kde') 
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图 8-20: 小 费 百分比 的 密度 图 


这 两 种 图 表 常 常会 被 画 在 一 起 。 直 方 图 以 规格 化 形式 给 出 (以便 给 出 面 元 化 密度 ) ， 然 
后 再 在 其 上 绘制 核 密度 估计 。 接 下 来 来 看 一 个 由 两 个 不 同 的 标准 正 态 分 布 组 成 的 双 峰 分 
布 ( 如 图 8-21 所 示 ) : 





In [81]: comp1 = np.random.normal(0, 1, size=200) # N(0, 1) 
In [82]: comp2 = np.random.normal(10, 2, size=200) # N(10, 4) 
In [83]: values = Series(np.concatenate([comp1, comp2])) 


In [84]: values.hist(bins=100, alpha=0.3, color="k', normed=True) 
Out[84]: “matplotlib.axes.AxesSubplot at Ox5cd2350> 


In [85]: values.plot(kind='kde’, style="k--') 


散布 图 (scatter plot) 是 观察 两 个 一 维 数据 序列 之 间 的 关系 的 有 效 手段 。matplotlib 的 
scatter 方 法 是 绘制 散布 图 的 主要 方法 。 在 下 面 这 个 例子 中 ， 我 加 载 了 来 自 statsmodels 项 
目的 macrodata 数 据 集 ， 选 择 其 中 几 列 ， 然 后 计算 对 数 差 : 
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In [86]: 
In [87]: 
In [88]: 


In [89]: 
out[89]: 


macro = pd.read_csv('cho8g/macrodata.csv') 
data = macro[['"cpi'，'ml'，'tbilrate'，'unenp']] 
trans_data = np.log(data).diff().dropna() 


trans_data[-5:] 


cpi 
198 -0.007904 
199 -0.021979 


200 
201 
202 


0.002340 
0.008419 
0.008894 


ml 
0.045361 
0.066753 
0.010286 
0.037461 
0.012202 


tbilrate 
-0.396881 
-2.277267 
0.606136 
-0.200671 
-0.405465 


unemp 
0.105361 
0.139762 
0.160343 
0.127339 
0.042560 








0.25| 


0.20| 


0.10| | 

















图 8-21: 带 有 密度 估计 的 规格 化 直方 图 
利用 pltscatter 即 可 轻松 绘制 一 张 简单 的 散布 图 (如 图 8-22 所 示 ) : 


In [91]: plt.scatter(trans_data['m1'], trans_data['unemp']) 
Out[91]: <matplotlib.collections.pPathCollection at Ox43c31d0> 


In [92]: plt.title('Changes in log %s vs. log %s' % ('m1', ‘unemp')) 
在 探索 式 数据 分 析 工 作 中 ， 同 时 观察 一 组 变量 的 散布 图 是 很 有 意义 的 ， 这 也 被 称 为 散布 
图 矩阵 (scatter plot matrix) 。 纯 手工 创建 这 样 的 图 表 很 费 工夫 ， 所 以 pandas 提 供 了 一 个 


能 从 DataFrame 创 建 散布 图 矩阵 的 scatter_matrix 函 数 。 它 还 支持 在 对 角 线 上 放置 各 变 
量 的 直方 图 或 密度 图 。 结 果 如 图 8-23 所 示 : 


In [93]: pd.scatter_matrix(trans_data，diagonal='kde'，color='k'，alpha-0.3) 
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图 8-22: 一 张 简单 的 散布 图 


9 3 





tbilrate 





tbilrate 





图 8-23: statsmodels macro data 的 散布 图 矩阵 


绘制 地 图 : 图 形 化 显示 海地 地 震 危机 数据 


Ushahidi 是 一 家 非 营 利 软件 公司 ， 人 们 可 以 通过 短信 向 其 提供 有 关 自 然 灾 害 和 地 缘 政 
治 事件 的 信息 。 这 些 数据 集会 被 发 布 在 他 们 的 网 站 (hrip://community.ushahidi.com/ 
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research/datasets/) 上 以 供 分 析 和 图 形 化 。 我 下 载 了 2010 年 海地 地 震 及 其 余震 期 间 搜集 
的 数据 。 在 本 节 中 ， 我 将 告诉 你 如 何 利用 pandas 以 及 其 他 目前 已 经 学 过 的 工具 处 理 这 些 
数据 ， 以 便 为 分 析 和 图 形 化 工作 做 准备 。 从 上 面 的 链接 下 载 好 这 个 CSV 文 件 之 后 ， 就 可 
以 用 read_csv 将 其 加 载 到 DataFrame 中 了 : 


In [94]: data = pd.read_csv('cho8/Haiti.csv') 


In [95]: data 

Out[95]: 

<class ‘pandas.core. frame.DataFrame'> 
Int64Index: 3593 entries, 0 to 3592 
Data columns: 

Serial 3593 non-null values 
INCIDENT TITLE 3593 non-null values 
INCIDENT DATE 3593 non-null values 


LOCATION 3593 non-null values 
DESCRIPTION 3593 non-null values 
CATEGORY 3587 non-null values 
LATITUDE 3593 non-null values 
LONGITUDE 3593 non-null values 
APPROVED 3593 non-null values 
VERIFIED 3593 non-null values 


dtypes: float64(2), int64(1), object(7) 


现在 来 处 理 一 下 这 些 数据 ， 看 看 哪些 是 我 们 想 要 的 。 每 一 行 表示 一 条 从 某 人 的 手机 上 发 
送 的 紧急 或 其 他 问题 的 报告 。 每 条 报告 都 有 一 个 时 间 戳 和 位 置 (经 度 和 纬度 ) : 
In [96]: data[['INCIDENT DATE', LATITUDE', ‘LONGITUDE']][:10] 


Out[96]: 
INCIDENT DATE ”LATITUDE LONGITUDE 


05/07/2010 17:26 18.233333 -72.533333 
28/06/2010 50.226029 5.729886 
24/06/2010 22.278381 114.174287 
20/06/2010 44.407062 。 8.933989 





18/05/2010 18.571084 -72.334671 
26/04/2010 13:14 18.593707 -72.310079 
26/04/2010 14:19 18.482800 -73.638800 
26/04/2010 14:27 18.415000 -73.195000 
15/03/2010 10:58 18.517443 -72.236841 
15/03/2010 11:00 18.547790 -72.410010 


ovamwPwuno 


CATEGORY 字 段 含有 一 组 以 逗号 分 隔 的 代码 ， 这 些 代 码 表示 消息 的 类 型 : 


In [97]: data['CATEGORY"][:6] 

Out[97]: 

0 1. Urgences | Emergency, 3. Public Health, 
1 1. Urgences | Emergency, 2. Urgences logistiques 
2 2. Urgences logistiques | Vital Lines, 8. Autre | 
3 1. Urgences | Emergency, 
4 1. Urgences | Emergency, 
5 5e. Communication lines down, 
Name: CATEGORY 
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只 要 仔细 观察 一 下 上 面 这 个 数据 摘要 ， 就 能 发 现 有 些 分 类 信息 缺失 了 ， 因 此 我 们 需要 丢 
弃 这 些 数据 点 。 此 外 ， 调 用 describe 还 能 发 现 数据 中 存在 一 些 异常 的 地 理 位 置 : 


In [98]: data.describe() 
Out[98]: 

Serial LATITUDE LONGITUDE 
count 3593.000000 3593.000000 3593.000000 
mean 2080.277484 18.611495 -72.322680 
std 1171.100360 0.738572 3.650776 
min 4.000000 18.041313 -74.452757 
25% 1074.000000 18.524070 -72.417500 
50% 2163.000000 18.539269 -72.335000 
75% 3088.000000 18.561820 -72.293570 
max 4052.000000 50.226029 114.174287 


清除 错误 位 置信 息 并 移 除 缺失 分 类 信息 是 一 件 很 简单 的 事情 : 
In [99]: data = data[(data.LATITUDE > 18) & (data.LATITUDE < 20) & 


(data.LONGITUDE > -75) 8& (data.LONGITUDE < -70) 
& data.CATEGORY.notnull()] 





现在 ， 我 们 想 根据 分 类 对 数据 做 一 些 分 析 或 图 形 化 工作 ， 但 是 各 个 分 类 字段 中 可 能 含有 
多 个 分 类 。 此 外 ， 各 个 分 类 信息 不 仅 有 一 个 编码 ， 还 有 一 个 英文 名 称 (可 能 还 有 一 个 法 
语 名 称 ) 。 因 此 需要 对 数据 做 一 些 规整 化 处 理 。 首 先 ， 我 编写 了 两 个 函数 ##5， 一 个 用 
于 获取 所 有 分 类 的 列表 ， 另 一 个 用 于 将 各 个 分 类 信息 拆 分 为 编码 和 英语 名 称 : 

def to_cat_list(catstr): 


stripped = (x.strip() for x in catstr.split(',')) 
return [x for x in stripped if x] 


def get all categories(cat_series): 
cat_sets = (set(to_cat_list(x)) for x in cat_series) 
return sorted(set.union(*cat_sets)) 


def get_english(cat): 
code, names = cat.split(.') 
if "|' in names: 
names = names.split(" | ')[1] 
return code, names.strip() 


你 可 以 测试 一 下 get_english 函 数 是 否 工作 正常 ， 


In [101]: get_english('2. Urgences logistiques | Vital Lines') 
Out[101]: ('2', 'Vital Lines') 


接 下 来 ， 我 做 了 一 个 将 编码 跟 名 称 映射 起 来 的 字典 ， 这 是 因为 我 们 等 会 儿 要 用 编码 进行 


译注 5: 读者 就 当做 两 个 吧 。 
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分 析 。 后 面 我 们 在 修饰 图 表 时 也 会 用 到 这 个 (注意 ， 这 里 用 的 是 生成 器 表达 式 ， 而 不 是 
列表 推导 式 ) : 


In [102]: all_cats = get_all categories(data.CATEGORY) 


# 生成 器 表达 式 
In [103]: english mapping = dict(get_english(x) for x in all_cats) 


In [104]: english mapping['2a'] 
Out[104]: 'Food Shortage’ 


In [105]: english_mapping['6c'] 
Out[105]: “Earthquake and aftershocks' 


根据 分 类 选取 记录 的 方式 有 很 多 ， 其 中 之 一 是 添加 指标 (或 哑 变 量 ) 列 ， 每 个 分 类 一 
列 。 为 此 ， 我 们 首先 抽取 出 唯一 的 分 类 编码 ， 并 构造 一 个 全 零 DataFrame ( 列 为 分 类 编 
码 ， 索 引 跟 data 的 索引 一 样 ) : 


def get_code(seq): 
return [x.split('.')[0] for x in seq if x] 


all_codes = get_code(all_cats) 

code_index = pd.Index(np.unique(all_codes)) 

dunmy_frame = DataFrame(np.zeros((len(data), len(code_index))), index=data.index, 
columns=code_index) 


如 果 一 切 顺利 ，dummy_frame 应 该 是 这 样 的 : 


In [107]: dummy_frame.ix[:, :6] 
Out[107]: 

<class 'pandas.core.frame.DataFrame’> 
Int64Index: 3569 entries, 0 to 3592 
Data columns: 

1 3569 non-null values 

1a 3569 non-null values 

1b 3569 non-null values 

1c 3569 non-null values 

1d 3569 non-null values 

多 3569 non-null values 
dtypes: float64(6) 


你 可 能 已 经 想到 了 ， 现 在 应 该 将 各 行 中 适当 的 项 设置 为 1， 然 后 再 与 data 进 行 连接 ， 
for row, cat in zip(data.index, data.CATEGORY): 
codes = get_code(to_cat_list(cat)) 


dummy_frame.ix[row, codes] = 1 


data = data.join(dummy_frame.add_prefix('category_')) 


现在 data 有 了 一 些 新 的 列 : 
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In [109]: data.ix[:，10:15] 
Out[109]: 

<class "pandas.core.frame.DataFrame'> 
Int64Index: 3569 entries, 0 to 3592 
Data columns: 

category_1 3569 non-null values 
category 1a 3569 non-null values 
category 1b 。 3569 non-null values 
category lc 3569 non-null values 
category_1d 3569 non-null values 
dtypes: float64(5) 


接 下 来 开始 画图 吧 ! 由 于 这 是 空间 坐标 数据 ， 因 此 我 们 希望 把 数据 绘制 在 海地 的 地 图 
上 。basemap 工 具 集 (http://matplotlib.github.com/basemap，matplotlib 的 一 个 插件 ) 使 得 
我 们 能 够 用 Python 在 地 图 上 绘制 2D 数 据 。basemap 提 供 了 许多 不 同 的 地 球 投影 以 及 一 种 
将 地 球 上 的 经 纬度 坐标 投影 转换 为 二 维 matplotlib 图 的 方式 。 经 过 一 遍 又 一 遍地 尝试 ， 我 
编写 了 下 面 这 个 函数 ， 它 可 以 绘制 出 一 张 简单 的 黑白 海地 地 图 : 


from mpl_toolkits.basemap import Basemap 
import matplotlib.pyplot as plt 


def basic_haiti_map(ax=None, 111at=17.25, urlat=20.25, 
111on=-75, urlon=-71): 

# 创建 极 球面 投影 的 Basemap 实 例 。 

m = Basemap(ax=ax，projection='stere'， 
lon_0=(urlon + lllon) / 2， 
lat 0=(urlat + 11lat) / 2， 
llcrnrlat=11lat, urcrnrlat=urlat, 
llcrnrlon=lllon, urcrnrlon=urlon, 
resolution='f') 

# 绘制 海岸 线 、 州 界 、 国 界 以 及 地 图 边界 。 

m.drawcoastlines() 

m.drawstates() 

m.drawcountries() 

return m 


现在 的 问题 是 ， 如 何 让 返回 的 这 个 Basemap 对 象 知道 该 怎样 将 坐标 转换 到 画布 上 。 我 编 
写 了 下 面 的 代码 来 绘制 数据 。 对 于 每 一 个 分 类 ， 我 在 数据 集中 找到 了 对 应 的 坐标 ， 并 在 
适当 的 subplot 中 绘制 一 个 Basemap ， 转 换 坐 标 ， 然 后 通过 Basemap 的 plot 方 法 绘制 点 : 





fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 10)) 
fig.subplots_adjust(hspace=0.05, wspace=0.05) 


to_plot = {23°, 1', '3c', '7a'] 
111at=17.25; urlat=20.25; lllon=-75; urlon=-71 
for code, ax in zip(to_plot, axes.flat): 


m = basic haiti nap(ax, 111at=]1lat, urlat=urlat, 
11lon=111on, urlon=urlon) 
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cat_data = data[data['category_%s' % code] == 1] 


# 计算 地 图 的 投影 坐标 。 
x, y = m(cat_data.LONGITUDE, cat_data.LATITUDE) 





m.plot(x, y, 'k.', alpha=0.5) 
ax.set_title('%s: %s' % (code, english_mapping[code])) 


最 终结 果 如 图 8-24 所 示 。 



































图 8-24: 海地 地 震 的 4 类 数据 


从 图 中 可 以 看 出 ， 大 部 分 数据 都 集中 在 人 口 最 稠密 的 城市 一 一 太子 港 。ba semap 还 可 
以 县 加 来 自 shapefile 的 地 图 数据 。 我 先 下 载 了 一 个 带 有 太子 港 道路 的 shapefile (参见 
http://cegrp.cga.harvard.edu/haiti/?q=resources_data) 。Basemap 对 象 有 一 个 非常 方便 的 
readshapefile 方 法 ， 于 是 在 解压 完 道路 数据 文件 之 后 ， 我 只 在 代码 中 加 以 下 几 行 就 可 以 
了 : 
shapefile_path = 'cho8/PortAuprince_Roads/PortAuprince Roads" 
m.readshapefile(shapefile_path, ‘roads’) 
在 对 经 纬度 边界 进行 了 一 番 尝 试 之 后 ， 我 做 了 一 张 反映 食物 短缺 情况 的 图 片 ， 如 图 8-25 
所 示 。 
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图 8-25: 海地 大 地 震 期 间 ， 太 子 港 的 食物 短缺 报告 


Python 图 形 化 工具 生态 系统 
用 Python 创建 图 形 的 方式 非常 多 (根本 罗列 不 完 ) 。 除 了 开源 库 ， 商 业 库 也 不 少 。 


本 书 主要 涉及 的 是 matplotlib， 因 为 它 是 Python 领域 中 使 用 最 广泛 的 绘图 工具 。 虽 然 
matplotlib 是 Python 科学 计算 生态 系统 的 重要 组 成 部 分 ， 但 它 在 统计 图 表 的 创建 和 展示 方 
面 仍然 有 许多 缺点 。MATLAB 用 户 可 能 会 对 matplotlib 感 到 熟悉 ， 而 R 用 户 (尤其 是 使 用 
ggplot2 和 trellis 的 那些 ) 可 能 就 会 比较 郁闷 了 (至 少 目前 是 ) 。 虽 然 matplotlib 可 以 为 
Web 应 用 创建 漂亮 的 图 表 ， 但 这 通常 需要 耗费 大 量 的 精力 ， 因 为 它 原本 是 为 印刷 而 设计 
的 。 先 不 管 美 不 美观 ， 至 少 它 足 以 应 付 大 部 分 需求 。 在 pandas 中 ， 我 跟 其 他 开发 人 员 一 
直 都 在 寻求 使 数据 分 析 中 的 大 部 分 绘图 工作 变 得 更 简单 的 办 法 。 


广泛 使 用 的 图 形 化 工具 很 多 。 这 里 我 只 列举 几 个 ， 但 建议 你 研究 一 下 整个 生态 系统 。 





Chaco 


Chaco (http://code.enthought.com/chaco/) 是 由 Enthought 开 发 的 一 个 绘图 工具 包 ， 它 既 
可 以 绘制 静态 图 又 可 以 生成 交互 式 图 形 ， 如 图 8-26 所 示 。 它 非常 适合 用 复杂 的 图 形 化 方 
式 表 达 数 据 的 内 部 关系 。 跟 matplotlib 相 比 ，Chaco 对 交互 的 支持 要 好 得 多 ， 而 且 泻 染 速 
度 很 快 。 如 果 要 创建 交互 式 的 GUI 应 用 程序 ， 它 确实 是 个 不 错 的 选择 。 
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图 8-26: Chaco 图 示例 


mayavi 


mayavi 项 目 (由 Prabhu Ramachandran、Gagl Varoquaux 等 人 开发 ) 是 一 个 基于 开源 C++ 
图 形 库 VTK 的 3D 图 形 工具 包 。 跟 matplotlib 一 样 ，mayavi 也 能 集成 到 IPython 以 实现 交 
互 式 使 用 。 通 过 鼠标 和 键盘 操作 ， 图 形 可 以 被 平移 、 旋 转 、 缩 放 。 在 第 12 章 中 ， 我 用 
mayavi 制 作 了 一 张 有 关 广 播 的 插图 。 我 没有 给 出 任何 调用 mayavi 的 代码 ， 但 你 可 以 在 网 
上 找到 很 多 文档 和 示例 。 我 相信 它 能 成 为 WebGL (以 及 相关 产品 ) 的 替代 品 ， 虽 然 其 生 
成 的 图 形 很 难以 交互 的 形式 共享 。 


其 他 库 


当然 ，Python 领 域 中 还 有 许多 其 他 的 图 形 化 库 和 应 用 程序 : PyQwt、Veusz、gnuplot- 
py、biggles 等 。 我 就 曾经 见 过 PyQwt 被 用 在 基于 Qt 框架 (PyQt) 的 GUI 应 用 程序 中 。 许 
多 库 都 还 在 不 断 地 发 展 (有 些 已 经 被 用 在 大 型 应 用 程序 当中 了 ) 。 近 几 年 来 ， 我 发 现 了 
-个 总 体 趋势 : 大 部 分 库 都 在 向 基于 Web 的 技术 发 展 ， 并 逐渐 远离 桌面 图 形 技术 。 下 面 
我 要 就 这 个 问题 多 说 几 句 。 


图 形 化 工具 的 未 来 
基于 Web 技 术 (比如 JavaScript) 的 图 形 化 是 必然 的 发 展 趋势 。 毫 无 疑问 ， 许 多 基于 Flash 
或 JavaScript 的 静态 或 交互 式 图 形 化 工具 已 经 出 现 了 很 多 年 。 而 且 类 似 的 新 工具 包 (如 
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d3.js 及 其 分 支 项 目 ) 一 直 都 在 不 断 涌现 。 相 比 之 下 ， 非 Web 式 的 图 形 化 开发 工作 在 近 几 
年 中 减 慢 了 许多 。Python 以 及 其 他 数据 分 析 和 统计 计算 环境 (如 R) 都 是 如 此 。 


于 是 ， 开 发 方向 就 变 成 了 实现 数据 分 析 和 准备 工具 (如 pandas) 与 Web 浏 览 器 之 间 更 为 
紧密 的 集成 。 我 希望 这 个 思路 今后 能 成 为 Python 以 及 非 Python 用 户 之 间 富 有 成 效 的 协作 
手段 。 
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第 9 章 





数据 聚合 与 分 组 运算 


对 数据 集 进行 分 组 并 对 各 组 应 用 一 个 函数 (无论 是 聚合 还 是 转换 ) ， 这 是 数据 分 析 工 作 
中 的 重要 环节 。 在 将 数据 集 准 备 好 之 后 ， 通 常 的 任务 就 是 计算 分 组 统计 或 生成 透视 表 。 
pandas 提 供 了 一 个 灵活 高 效 的 gruopby 功 能 ， 它 使 你 能 以 一 种 自然 的 方式 对 数据 集 进行 切 
片 、 切 块 、 摘 要 等 操作 。 


关系 型 数据 库 和 SQL (Structured Query Language， 结 构 化 查询 语言 ) 能 够 如 此 流行 的 原 
因 之 一 就 是 其 能 够 方便 地 对 数据 进行 连接 、 过 滤 、 转 换 和 聚合 。 但 是 ， 像 S$QL 这 样 的 查 
询 语言 所 能 执行 的 分 组 运算 的 种 类 很 有 限 。 在 本 章 中 你 将 会 看 到 ， 由 于 Python 和 pandas 
强大 的 表达 能 力 ， 我 们 可 以 执行 复杂 得 多 的 分 组 运算 (利用 任何 可 以 接受 pandas 对 象 或 
NumPy 数 组 的 函数 ) 。 在 本 章 中 ， 你 将 会 学 到 : 


根据 一 个 或 多 个 键 ( 可 以 是 函数 、 数 组 或 DataFrame 列 名 ) 拆 分 pandas 对 象 。 
计算 分 组 摘要 统计 ， 如 计数 、 平 均值 、 标 准 差 ， 或 用 户 自 定义 函数 。 

对 DataFrame 的 列 应 用 各 种 各 样 的 函数 。 

应 用 组 内 转换 或 其 他 运算 ”如 规格 化 、 线 性 回归 、 排 名 或 选取 子 集 等 。 
计算 透视 表 或 交叉 表 。 

执行 分 位 数 分 析 以 及 其 他 分 组 分 析 。 





注意 : 对 时 间 数 据 的 聚合 (groupby 的 特殊 用 法 之 一 ) 也 称 作 重 采样 (resampling) ， 本 书 将 在 第 


10 章 中 单独 对 其 进行 讲解 。 
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GroupBy 技 术 


Hadley Wickham (许多 热门 R 语 言 包 的 作者 ) 创造 了 一 个 用 于 表示 分 组 运算 的 术语 
“split-apply-combine” ( 拆 分 一 应 用 一 合并 ) ， 我 觉得 这 个 词 很 好 地 描述 了 整个 过 程 。 
分 组 运算 的 第 一 个 阶段 ，pandas 对 象 (无 论 是 Series、DataFrame 还 是 其 他 的 ) 中 的 数据 
会 根据 你 所 提供 的 一 个 或 多 个 键 被 拆 分 (split) 为 多 组 。 拆 分 操作 是 在 对 象 的 特定 轴 上 





执行 的 。 例 如 ，DataFrame 可 以 在 其 行 (axis=0) 或 列 (axis=1) 上 进行 分 组 。 然 后 ， 
将 一 个 函数 应 用 (apply) 到 各 个 分 组 并 产生 一 个 新 值 。 最 后 ， 所 有 这 些 函 数 的 执行 结果 
会 被 合并 (combine) 到 最 终 的 结果 对 象 中 。 结 果 对 象 的 形式 一 般 取 决 于 数据 上 所 执行 
的 操作 。 图 9-1 大 致 说 明了 一 个 简单 的 分 组 聚合 过 程 。 

全 4 拆 分 应 用 合并 

站 Go 

求 和 

国之 加 [aa 

日 品名 作对 届 口 

中间 、 吧 加 
相国 名 
器 旨 





图 9-1: 分 组 聚合 演示 

分 组 键 可 以 有 多 种 形式 ， 且 类 型 不 必 相同 : 

。 “列表 或 数组 ， 其 长 度 与 待 分 组 的 轴 一 样 。 

。 ”表示 DataFrame 某 个 列 名 的 值 。 

。 ”字典 或 Series， 给 出 待 分 组 轴 上 的 值 与 分 组 名 之 间 的 对 应 关系 。 
。 ”函数 ， 用 于 处 理 轴 索 引 或 索引 中 的 各 个 标签 。 


注意 ， 后 三 种 都 只 是 快捷 方式 而 已 ， 其 最 终 目的 仍然 是 产生 一 组 用 于 拆 分 对 象 的 值 。 如 
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果 觉 得 这 些 东西 看 起 来 很 抽象 ， 不 用 担心 ， 我 将 在 本 章 中 给 出 大 量 有 关于 此 的 示例 。 首 
先 来 看 看 下 面 这 个 非常 简单 的 表格 型 数据 集 (以 DataFrame 的 形式 ) : 


In [13]: df = DataFrame({ 


In [14]: df 
Out[14]: 
datal 
-0.204708 
0.478943 
-0.519439 
-0.555730 
1.965781 


mwnno 


i 

‘key2' : ['one’, ‘two', ‘one’, ‘two', ‘one'], 
"data1l’ : np.random.randn(5), 

“data2' : np.random.randn(5)}) 


data2 key1 key2 


1.393406 
0.092908 
0.281746 
0.769023 
1.246435 


a 
b 
b 
a 


one 
two 
one 
two 
one 


假设 你 想 要 按 key1 进 行 分 组 ， 并 计算 datal 列 的 平均 值 。 实 现 该 功能 的 方式 有 很 多 ， 而 我 
们 这 里 要 用 的 是 : 访问 datal， 并 根据 key1 调 用 groupby: 


In [15]: grouped = df["datal'].groupby(df["key1']) 


In [16]: grouped 
Out[16]: “pandas.core.groupby.SeriesGroupBy at Ox2d78b10> 


变量 grouped 是 一 个 GroupBy 对 象 。 它 实际 上 还 没有 进行 任何 计算 ， 只 是 含有 一 些 有 关 分 
组 键 4f['key1'] 的 中 间 数 据 而 已 。 换 名 话说， 该 对 象 已 经 有 了 接 下 来 对 各 分 组 执行 运算 
所 需 的 一 切 信 息 。 例 如 ， 我 们 可 以 调用 GroupBy 的 mean 方 法 来 计算 分 组 平均 值 : 


In [17]: grouped.mean() 





out[17]: 
key1 


a 0.746672 
b -0.537585 


稍 后 我 将 详细 讲解 .mean() 的 调用 过 程 。 这 里 最 重要 的 是 ,数据 (Series) 根据 分 组 键 进 
行 了 聚合 ， 产 生 了 一 个 新 的 Series， 其 索引 为 key1 列 中 的 唯一 值 。 之 所 以 结果 中 索引 的 
名 称 为 key1， 是 因为 原始 DataFrame 的 列 df[ "key1' ] 就 叫 这 个 名 字 。 


如 果 我 们 一 次 传人 多 个 数组 ， 就 会 得 到 不 同 的 结果 : 


In [18]: means = df['data1’].groupby([df[ "key1'], df['key2']]).mean() 


In [19]: means 


Out[19]: 
key1 key2 
a one 
two 
b one 
two 


0.880536 
0.478943 
-0.519439 
-0.555730 
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这 里 ， 我 通过 两 个 键 对 数据 进行 了 分 组 ， 得 到 的 Series 具 有 一 个 层次 化 索引 (由 唯一 的 
键 对 组 成 ) : 

In [20]: means.unstack() 

Out[20]: 

key2 one two 

key1 

a 0.880536 0.478943 

b -0.519439 -0.555730 


在 上 面 这 些 示例 中 ， 分 组 键 均 为 Series。 实 际 上 ， 分 组 键 可 以 是 任何 长 度 适 当 的 数组 : 
In [21]: states = np.array(['Ohio', ‘California', 'California', ‘Ohio', ‘Ohio']) 
In [22]: years = np.array([2005, 2005, 2006, 2005, 2006]) 


In [23]: df['data1'].groupby([states, years]).mean() 


Out[23]: 

California 2005 0.478943 
2006 -0.519439 

Ohio 2005 -0.380219 
2006 1.965781 


此 外 ， 你 还 可 以 将 列 名 (可 以 是 字符 串 、 数 字 或 其 他 Python 对 象 ) 用 作 分 组 键 : 


In [24]: df.groupby('key1').mean() 
Out[24]: 

datal dataz2 

key1 
a 0.746672 0.910916 
b -0.537585 0.525384 


In [25]: df.groupby(['key1', ‘key2']).mean() 





Out[25]: 

datal data2 
key1 key2 
a one 0.880536 1.319920 


two 0.478943 0.092908 
b one -0.519439 0.281746 
two -0.555730 0.769023 


你 可 能 已 经 注意 到 了 ， 在 执行 df.groupby('key1' ) .mean() 时 ， 结 果 中 没有 key2 列 。 这 是 


因为 df['key2'] 不 是 数值 数据 (俗称 “麻烦 列 ”) ， 所 以 被 从 结果 中 排除 了 。 默 认 情 况 
下 ， 所 有 数值 列 都 会 被 聚合 ， 虽 然 有 时 可 能 会 被 过 滤 为 一 个 子 集 ( 稍 后 就 会 讲 到 ) 。 


无 论 你 准备 拿 groupby 做 什么 ， 都 有 可 能 会 用 到 GroupBy 的 size 方 法 ， 它 可 以 返回 一 个 含 
有 分 组 大 小 的 Series: 
In [26]: df.groupby(['key1', ‘key2']).size() 


Out[26]: 
key1 key2 
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a one 2 
two 1 
b one 1 
two 1 





警告 ， 到 编写 本 书 时 为 止 ， 分 组 键 中 的 任何 缺失 值 都 会 被 排除 在 结果 之 外 。 在 你 读 到 这 里 的 时 
候 ， 说 不 定 就 已 经 有 一 个 选项 可 以 使 结果 中 包含 NA 组 了 评注 1。 





对 分 组 进行 迭代 
GroupBy 对 象 支持 迭代 ， 可 以 产生 一 组 二 元 元 组 (由 分 组 名 和 数据 块 组 成 ) 。 看 看 下 面 
这 个 简单 的 数据 集 : 

In [27]: for name, group in df.groupby('key1'): 


print name 
print group 








datal data2 keyl key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
4 1.965781 1.246435 3 one 
b 


datal 。 data2 keyl key2 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 


对 于 多 重 键 的 情况 ， 元 组 的 第 一 个 元 素 将 会 是 由 键 值 组 成 的 元 组 : 
In [28]: for (k1, k2), group in df.groupby(['key1', ‘key2"]): 


print k1, kz2 
print group 








a one 
datal data2 key1 key2 
0 -0.204708 1.393406 a one 
4 1.965781 1.246435 a one 
two 
datal 。 data2 keyl key2 


1 0.478943 0.092908 a two 
b one 

datal data2 key1 key2 
2 -0.519439 0.281746 b one 
b two 


datal data2 key1 key2 
3 -0.55573 0.769023 b two 


: 翻译 本 书 过程 中 仍然 没有 。 
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当然 ， 你 可 以 对 这 些 数 据 片段 做 任何 操作 。 有 一 个 你 可 能 会 觉得 有 用 的 运算 : 将 这 些 数 
据 片段 做 成 一 个 字典 。 


In [29]: pieces = dict(list(df.groupby('key1'))) 


In [30]: pieces['b'] 
Out[30]: 

datal data2 key1 key2 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 


groupby 默 认 是 在 axis=0 上 进行 分 组 的 ， 通 过 设置 也 可 以 在 其 他 任何 轴 上 进行 分 组 。 拿 上 
面 例子 中 的 df 来 说 ， 我 们 可 以 根据 dtype 对 列 进行 分 组 : 


In [31]: df.dtypes 
Out[31]: 

datal float64 
data2 float64 
key1 object 
key2 object 


In [32]: grouped = df.groupby(df.dtypes, axis=1) 


In [33]: dict(list(grouped)) 

Out[33]: 

{dtype( "float64' ): datal data2 
0 -0.204708 1.393406 

1 0.478943 0.092908 

2 -0.519439 0.281746 

3 -0.555730 0.769023 

4 1.965781 1.246435, 
dtype('object'): 。 key1 key2 


0 a one 
1 a two 
2 b one 
3 b two 
4 a one} 


选取 一 个 或 一 组 列 
对 于 由 DataFrame 产 生 的 GroupBy 对 象 ， 如 果 用 一 个 (单个 字符 串 ) 或 一 组 (字符 串 数 
组 ) 列 名 对 其 进行 索引 ， 就 能 实现 选取 部 分 列 进行 聚合 的 目的 。 也 就 是 说 : 


df.groupby( "key1')['data1'] 
df.groupby( "key1' )[[ "data2"]] 


是 以 下 代码 的 语法 糖 : 


df[ "datal'] .groupby(df["key1']) 
df[['data2']].groupby(df[ key1" ]) 
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尤其 对 于 大 数据 集 ， 很 可 能 只 需要 对 部 分 列 进行 聚合 。 例 如 ， 在 前 面 那个 数据 集中 ， 如 
果 只 需 计 算 data2 列 的 平均 值 并 以 DataFrame 形 式 得 到 结果 ， 我 们 可 以 编写 : 
In [34]: df.groupby(['key1', 'key2'])[['data2']].mean() 
Out[34]: 
data2 
key1 key2 
a one 1.319920 
two 0.092908 
b ‘one 0.281746 
two 0.769023 
这 种 索引 操作 所 返回 的 对 象 是 一 个 已 分 组 的 DataFrame (如 果 传 人 的 是 列表 或 数组 ) 或 
已 分 组 的 Series (如 果 传人 的 是 标量 形式 的 单个 列 名 ) : 
In [35]: s_grouped = df.groupby(['key1', ‘key2'])['data2'] 
In [36]: s_grouped 
Out[36]: <pandas.core.groupby.SeriesGroupBy at Ox2e215d0> 
In [37]: s_grouped.mean() 
out[37]: 
key1 key2 
a one 1.319920 
two 0.092908 
b one 0.281746 
two 0.769023 
Name: data2 
通过 字典 或 Series 进 行 分 组 
除数 组 以 外 ， 分 组 信息 还 可 以 其 他 形式 存在 。 来 看 另 一 个 示例 DataFrame: 
In [38]: people = DataFrame(np.random.randn(5, 5), 
' columns=['a’, ‘b’, 'c’, 'd', 'e'], 
index=['Joe', 'Steve’, ‘Wes’, 'Jim’, 'Travis']) 
In [39]: people.ix[2:3,，['b'，'c']] = np.nan # 添加 儿 个 NA 值 
In [40]: people 
Out[40]: 
a b c d . 
Joe 1.007189 -1.296221 0.274992 0.228913 1.352917 
Steve 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
Nes -0.539741 NaN NaN -1.021228 -0.577087 
Jim 0.124121 0.302614 0.523772 0.000940 1.343810 
Travis -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 
假设 已 知 列 的 分 组 关系 ， 并 希望 根据 分 组 计算 列 的 总 计 : 
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In [41]: mapping = {'a': ‘red', ‘b’ 
Fp "d': "blue’, 'e 


现在 ， 只 需 将 这 个 字典 传 给 groupby 即 可 : 
In [42]: by_column = people.groupby(mapping, axis=1) 


In [43]: by_column.sum() 
Out[43]: 

blue red 
Joe 0.503905 1.063885 
Steve 1.297183 -1.553778 
Wes -1.021228 -1.116829 
Jim 0.524712 1.770545 
Travis -4.230992 -2.405455 


Series 也 有 同样 的 功能 ， 它 可 以 被 看 做 一 个 固定 大 小 的 映射 。 对 于 上 面 那个 例子 ， 如 果 
用 Series 作 为 分 组 键 ， 则 pandas 会 检查 Series 以 确保 其 索引 跟 分 组 轴 是 对 齐 的 : 


In [44]: map_series = Series(mapping) 


In [45]: map_series 
Out[45]: 

a red 

b red 
c blue 
d blue 
& red 
f orange 


In [46]: people.groupby(map_series, axis=1).count() 
Out[46]: 
blue red 

Joe 多 
Steve 
Wes 
Jim 
Travis 


PR 


3 
Li 
& 
Es 


通过 函数 进行 分 组 

相 较 于 字典 或 Series，Python 函 数 在 定义 分 组 映射 关系 时 可 以 更 有 创意 且 更 为 抽象 。 任 何 
被 当做 分 组 键 的 函数 都 会 在 各 个 索引 值 上 被 调用 一 次 ， 其 返回 值 就 会 被 用 作 分 组 名 称 。 
具体 点 说 ， 以 上 一 小 节 的 示例 DataFrame 为 例 ， 其 索引 值 为 人 的 名 字 。 假 设 你 希望 根据 
人 名 的 长 度 进行 分 组 ， 虽 然 可 以 求 取 一 个 字符 串 长 度数 组 ， 但 其 实 仅仅 传 和 len 函数 就 
可 以 了 ， 


In [47]: people.groupby(len).sum() 
Out[47]: 
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a b 省 d [2 
3 0.591569 -0.993608 0.798764 -0.791374 2.119639 
5 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
6 -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 





将 函数 跟 数 组 、 列 表 、 字 典 、Series 混 合 使 用 也 不 是 问题 ， 
换 为 数组 ; 





为 任何 东西 最 终 都 会 被 转 


In [48]: key_list = ['one’, ‘one’, ‘one', 'two', 'two'] 


In [49]: people.groupby([len, key list]).min() 
Out[49]: 
a b < d e 
3 one -0.539741 -1.296221 0.274992 -1.021228 -0.577087 
two 0.124121 0.302614 0.523772 0.000940 1.343810 
5 one 0.886429 -2.001637 -0.371843 1.669025 -0.438570 
6 two -0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


根据 索引 级 别 分 组 


层次 化 索引 数据 集 最 方便 的 地 方 就 在 于 它 能 够 根据 索引 级 别 进行 聚合 。 要 实现 该 目的 ， 
通过 level 关 键 字 传人 级 别 编号 或 名 称 即 可 : 





In [50]: columns = pd.MultiIndex.from arrays([['US’, ‘US’, ‘US’, ‘Jp', ‘Jp'], 
… [1, 3, 5, 1, 3]], names=['cty’', "tenor ]) 





In [51]: hier df = DataFrame(np.random.randn(4, 5), colunns=columns) 





In [52]: hier df 

Out[52]: 

cty Us Pp 

tenor 1 3 5 1 3 
0 0.560145 -1.265934 0.119827 -1.063512 0.332883 
1 -2.359419 -0.199543 -1.541996 -0.970736 -1.307030 
和 0.286350 0.377984 -0.753887 0.331286 1.349742 
3 0.069877 0.246674 -0.011862 1.004812 1.327195 
In [53]: hier_df.groupby(level='cty', axis=1).count() 
Out[53]: 

cty IP US 

(| 

1 | 

2 变 : 洁 

3 |) 


心 

品 
数据 聚 
对 于 聚合 ， 我 指 的 是 任何 能 够 从 数组 产生 标量 值 的 数据 转换 过 程 。 之 前 的 例子 中 我 已 
经 用 过 一 些 ， 比 如 mean、count、min 以 及 sum 等 。 你 可 能 想 知道 在 GroupBy 对 象 上 调用 





数据 聚合 与 分 组 运算 | 271 


mean() 时 究竟 发 生 了 什么 。 许 多 常见 的 聚合 运算 (如 表 9-1 所 示 ) 都 有 就 地 计算 数据 集 
统计 信息 的 优化 实现 。 然 而 ， 并 不 是 只 能 使 用 这 些 方法 。 你 可 以 使 用 自己 发 明 的 聚合 运 
算 ， 还 可 以 调用 分 组 对 象 上 已 经 定义 好 的 任何 方法 。 例 如 ，quantile 可 以 计算 Series 或 
DataFrame 列 的 样本 分 位 数 主 计 ?， 


In [54]: df 
Out[54]: 

datal data2 key1 key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


In [55]: grouped = df.groupby('key1') 


In [56]: grouped['datal'].quantile(o.9) 


Out[56]: 

key1 

a 1.668413 
b -0.523068 


虽然 guantile 并 没有 明确 地 实现 于 GroupBy， 但 它 是 一 个 Series 方 法 ， 所 以 这 里 是 
能 用 的 。 实 际 上 ，GroupBy 会 高 效 地 对 Series 进 行 切片 ， 然 后 对 各 片 调用 piece. 
quantile(0.9)， 最 后 将 这 些 结果 组 装 成 最 终结 果 。 


如 果 要 使 用 你 自己 的 聚合 函数 ， 只 需 将 其 传人 aggregate 或 agg 方 法 即 可 : 


In [57]: def peak_to_peak(arr): 
: return arr.max() - arr.min() 


In [58]: grouped.agg(peak_to_peak) 
Out[58]: 
datal data2 
key1 
a 2.170488 1.300498 
b 0.036292 0.487276 


注意 ， 有 些 方法 (如 describe) 也 是 可 以 用 在 这 里 的 ， 即 使 严格 来 讲 ， 它 们 并 非 聚 合 运 
算 : 


In [59]: grouped.describe() 
Out[59]: 
datal data2 
key1 
a count 3.000000 3.000000 
mean 0.746672 0.910916 


译注 2: 注意 ， 如 果 传 入 的 百 分 位 上 没有 值 ， 则 quantile 会 进行 线性 插值 。 
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std 。 1.109736 0.712217 
min -0.204708 0.092908 
25% 0.137118 0.669671 
50% 0.478943 1.246435 
75% 1.222362 1.319920 
max 1.965781 1.393406 
b count 2.000000 2.000000 
mean -0.537585 0.525384 
std 0.025662 0.344556 
min -0.555730 0.281746 
25% -0.546657 0.403565 
50% -0.537585 0.525384 
75% -0.528512 0.647203 
max -0.519439 0.769023 


在 后 面 关 于 分 组 级 运算 半生 和 转换 的 那 一 节 中 ， 我 将 详细 说 明 这 到 底 是 怎么 回 事 。 





注意 : 可 能 你 已 经 注意 到 了 ， 自 定义 聚合 函数 要 比 表 9-1 中 那些 经 过 优化 的 函数 慢 得 多 。 这 是 因为 
在 构造 中 间 分 组 数据 块 时 存在 非常 大 的 开销 (函数 调用 、 数 据 重 排 等 ) 。 


表 9-1: 经 过 优化 的 groupby 羡 起 的 方法 


函数 名 说 明 

count 分 组 中 非 NA 值 的 数量 

sum 非 NA 值 的 和 

mean 非 NA 值 的 平均 值 

median 非 NA 值 的 算术 中 位 数 

std、var 无 偏 (分 母 为 n - 1) 标准 差 和 方差 
min、max 非 NA 值 的 最 小 值 和 最 大 值 

prod 非 NA 值 的 积 

first、last 第 一 个 和 最 后 一 个 非 NA 值 





为 了 说 明 一 些 更 高 级 的 聚合 功能 ， 我 将 使 用 一 个 有 关 餐 馆 小 费 的 数据 集 。 我 是 在 R 语 
言 的 reshape2 包 中 得 到 该 数据 集 的 (可 以 在 本 书 的 GitHub 库 中 找到 ) 。 它 最 初出 现 于 
Bryant 和 Smith 在 1995 年 编写 的 一 本 有 关 商 业 统计 的 书 中 。 通 过 read_csv 将 其 加 载 之 后 ， 
我 添加 了 一 个 表示 小 费 比 例 的 列 tip_pct。 


In [60]: tips = pd.read_csv('cho8/tips.csv') 


# 添加 “小 费 占 总 额 百分比 ”的 列 
In [61]: tips['tip_pct'] = tips['tip'] / tips['"total_bill'] 





译注 3: 也 就 是 “面向 分 组 ”的 计算 。 
译注 4: 这 里 应 该 是 “经 过 优化 的 GroupBy 的 方法 ”， 原 文 有 误 。 
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In [62]: tips[:6] 


out[62]: 

total bill tip sex smoker day time size tip_pct 
0 16.99 1.01 Female False Sun Dinner 2 0.059447 
1 10.34 1.66 Male False Sun Dinner 3 0.160542 
2 21.01 3.50 Male False Sun Dinner 3 0.166587 
3 23.68 3.31 Male False Sun Dinner 2 0.139780 
4 24.59 3.61 Female False Sun Dinner 4 0.146808 
5 25.29 4.71 Male False Sun Dinner 4 0.186240 


面向 列 的 多 函数 应 用 
我 们 已 经 看 到 ， 对 Series 或 DataFrame 列 的 聚合 运算 其 实 就 是 使 用 aggregate (使 用 自 定 
义 函 数 ) 或 调用 诸如 mean、std 之 类 的 方法 。 然 而 ， 你 可 能 希望 对 不 同 的 列 使 用 不 同 的 
聚合 函数 ， 或 一 次 应 用 多 个 函数 。 其 实 这 事 也 好 办 ， 我 将 通过 一 些 示例 来 进行 讲解 。 首 
先 ， 我 根据 sex 和 smoker 对 tips 进 行 分 组 : 

In [63]: grouped = tips.groupby(['sex', ‘smoker']) 
注意 ， 对 于 表 9-1 中 的 那些 描述 统计 ， 可 以 将 函数 名 以 字符 串 的 形式 传 入 : 

In [64]: grouped pct = grouped['tip pct'] 


In [65]: grouped_pct.agg('mean’') 


Out[65]: 

sex smoker 

Female False 0.156921 
True 0.182150 

Male False 0.160669 
True 0.152771 


Name: tip_pct 
如 果 传人 一 组 函数 或 函数 名 ， 得 到 的 DataFrame 的 列 就 会 以 相应 的 函数 命名 : 


In [66]: grouped_pct.agg(['mean'，'std'，peak_to_peak]) 


Out[66]: 
nean std peak_to_peak 
sex smoker 
Female False 0.156921 0.036421 0.195876 
True 0.182150 0.071595 0.360233 
Male False 0.160669 0.041849 0.220186 
True 0.152771 0.090588 0.674707 


你 并 非 一 定 要 接受 GroupBy 自 动 给 出 的 那些 列 名 ,特别 是 1amb da 函数 ， 它 们 的 名 称 是 
"tlambda>'， 这 样 的 辨识 度 就 很 低 了 (通过 函数 的 name 属 性 看 看 就 知道 了 ) 。 如 果 传 
入 的 是 一 个 由 (name，function) 元 组 组 成 的 列表 ， 则 各 元 组 的 第 一 个 元 素 就 会 被 用 作 
DataFrame 的 列 名 (可 以 将 这 种 二 元 元 组 列表 看 做 一 个 有 序 映 射 】: 
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In [67]: grouped_pct.agg([('foo'，'mean')，('"bar'，np.std)]) 
out[67]: 
foo bar 

Sex smoker 
Female False 0.156921 0.036421 

True 0.182150 0.071595 
Male False 0.160669 0.041849 

True 0.152771 0.090588 


对 于 DataFrame， 你 还 可 以 定义 一 组 应 用 于 全 部 列 的 函数 ， 或 不 同 的 列 应 用 不 同 的 函 
数 。 假 设 我 们 想 要 对 tip_pct 和 total_bil1 列 计算 三 个 统计 信息 : 


In [68]: functions = ['count’, ‘mean’, ‘max'] 
In [69]: result = grouped['tip_pct'，'total_ bill'].agg(functions) 


In [70]: result 


out[70]: 
tip_pct total_bill 
count mean max count mean max 
Sex smoker 
Female False 54 0.156921 0.252672 54 18.105185 35.83 
True 33 0.182150 0.416667 33 17.977879 44.30 
Male False 97 0.160669 0.291990 97 19.791237 48.33 
True 60 0.152771 0.710345 60 22.284500 50.81 


如 你 所 见 ， 结 果 DataFrame 拥 有 层次 化 的 列 ， 这 相当 于 分 别 对 各 列 进行 聚合 ， 然 后 用 
concat 将 结果 组 装 到 一 起 ( 列 名 用 作 keys 参 数 ) 。 


In [71]: result['tip_pct'] 


Out[71]: 
count mean max 
Sex Smoker 
Female False 54 0.156921 0.252672 
True 33 0.182150 0.416667 
Male False 97 0.160669 0.291990 
True 60 0.152771 0.710345 


跟前 面 一 样 ， 这 里 也 可 以 传人 带 有 自 定义 名 称 的 元 组 列表 : 
In [72]: ftuples = [('Durchschnitt’, ‘mean’), ('Abweichung’, np.var)] 


In [73]: grouped['tip_pct'，'total_bill'].agg(ftuples) 


Out[73]: 
tip_pct total_bill 
Durchschnitt Abweichung Durchschnitt Abweichung 
Sex smoker 
Female False 0.156921 。 0.001327 18.105185 。 53.092422 
True 0.182150 。 0.005126 17.977879 84.451517 
Male False 0.160669 0.001751 19.791237 76.152961 
True 0.152771 0.008206 22.284500 98.244673 
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现在 ， 假 设 你 想 要 对 不 同 的 列 应 用 不 同 的 函数 。 具 体 的 办 法 是 向 ag8 传 人 一 个 从 列 名 映 
射 到 函数 的 字典 : 


In [74]: grouped.agg({'tip’ : np.max, 'size’ : 'sum'}) 


Out[74]: 
size tip 
sex smoker 
Female False 140 5.2 
True 74 6.5 
Male ”False 263 9.0 
True 150 10.0 
In [75]: grouped.age({ ‘tip pet’ : [min' ， ‘max’, ‘mean’, std']， 
‘size’ : ‘sum'}) 
out [21: 
tip_pct size 
min max mean std sum 


Sex Smoker 

Female False 0.056797 0.252672 0.156921 0.036421 140 
True 0.056433 0.416667 0.182150 0.071595 74 

Male False 0.071804 0.291990 0.160669 0.041849 263 
True 0.035638 0.710345 0.152771 0.090588 150 


只 有 将 多 个 函数 应 用 到 至 少 一 列 时 ，DataFrame 才 会 拥有 层次 化 的 列 。 


以 “无 索引 ”的 形式 返回 聚合 数据 

到 目前 为 止 ， 所 有 示例 中 的 聚合 数据 都 有 由 唯一 的 分 组 键 组 成 的 索引 (可 能 还 是 层次 化 
的 ) 。 由 于 并 不 总 是 需要 如 此 ， 所 以 你 可 以 向 groupby 传 人 as_index=False 以 禁用 该 功 
能 : 


In [76]: tips.groupby(['sex', 'smoker'], as_index=False).mean() 
Out[76]: 
sex smoker total bill tip size tip_pct 
0 Female False 18.105185 2.773519 2.592593 0.156921 
1 Female True 17.977879 2.931515 2.242424 0.182150 
2 Male False 19.791237 3.113402 2.711340 0.160669 
3 Male True 22.284500 3.051167 2.500000 0.152771 


当然 ， 对 结果 调用 reset_index 也 能 得 到 这 种 形式 的 结果 





警告 groupby 的 这 种 用 法 比较 缺乏 灵活 性 。 


分 组 级 运算 和 转换 


聚合 只 不 过 是 分 组 运算 的 其 中 一 种 而 已 。 它 是 数据 转换 的 一 个 特例 ， 也 就 是 说 ， 它 接受 
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能 够 将 一 维 数组 简化 为 标量 值 的 函数 。 在 本 节 中 ， 我 将 介绍 transform 和 apply 方 法 ， 它 
们 能 够 执行 更 多 其 他 的 分 组 运算 。 


假设 我 们 想 要 为 一 个 DataFrame 添 加 一 个 用 于 存放 各 索引 分 组 平均 值 的 列 。 一 个 办 法 是 
先 聚 合 再 合并 : 


In [77]: df 
out[77]: 

datal data2 keyl key2 
0 -0.204708 1.393406 a one 
1 0.478943 0.092908 a two 
2 -0.519439 0.281746 b one 
3 -0.555730 0.769023 b two 
4 1.965781 1.246435 a one 


In [78]: k1_means = df.groupby('key1').mean().add_prefix('mean_') 
In [79]: ki_means 


Out[79]: 
mean_datal mean_data2 


key1 
a 0.746672 0.910916 
b -0.537585 0.525384 


In [80]: pd.merge(df, k1_means, left_on='key1', right_index=True) 
out[8o]: 
datal data2 key1 key2 mean_datal mean_data2 
0 -0.204708 1.393406 one 0.746672 0.910916 
1 0.478943 0.092908 two 0.746672 0.910916 
4 1.965781 1.246435 one 0.746672 0.910916 
2 -0.519439 0.281746 one -0.537585 0.525384 
3 -0.555730 0.769023 two -0.537585 0.525384 


Ca 


虽然 这 样 也 行 ， 但 是 不 太 灵 活 。 你 可 以 将 该 过 程 看 做 利用 np.mean 函 数 对 两 个 数据 列 进 
行 转换 。 再 以 本 章 前 面 用 过 的 那个 people DataFrame 为 例 ， 这 次 我 们 在 GroupBy 上 使 用 
transform 方 法 : 


In [81]: key = ['one’, 'two', ‘one’, 'two', ‘one'] 
In [82]: people.groupby(key).mean() 
Out[82]: 

a b c d e 


one -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
two 0.505275 -0.849512 0.075965 0.834983 0.452620 


In [83]: people.groupby(key).transform(np.mean) 


Out[83]: 

a b c d e 
Joe -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
Steve 0.505275 -0.849512 0.075965 0.834983 0.452620 
Wes -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
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Jim 0.505275 -0.849512 0.075965 0.834983 0.452620 

Travis -0.082032 -1.063687 -1.047620 -0.884358 -0.028309 
不 难看 出 ，transform 会 将 一 个 函数 应 用 到 各 个 分 组 ， 然 后 将 结果 放置 到 适当 的 位 置 
上 。 如 果 各 分 组 产生 的 是 一 个 标量 值 ， 则 该 值 就 会 被 广播 出 去 。 现 在 ， 假 设 你 希望 从 各 
组 中 减 去 平均 值 。 为 此 ， 我 们 先 创 建 一 个 距 平 化 函数 (demeaning function) ， 然 后 将 其 
传 给 transform: 


In [a]: def demean(arr): 
:return arr - arr.mean() 


In [85]: demeaned = people.groupby(key).transform(demean) 


In [86]: demeaned 
Out[86]: 

a b c d e 
Joe 1.089221 -0.232534 1.322612 1.113271 1.381226 
Steve 0.381154 -1.152125 -0.447807 0.834043 -0.891190 
Wes -0.457709 NaN NaN -0.136869 -0.548778 
Jim -0.381154 1.152125 0.447807 -0.834043 0.891190 
Travis -0.631512 0.232534 -1.322612 -0.976402 -0.832448 


你 可 以 检查 一 下 demeaned 现 在 的 分 组 平均 值 是 否 为 0: 


In [87]: demeaned.groupby(key) .mean() 
out[87]: 


在 下 一 节 中 你 将 会 看 到 ， 分 组 距 平 化 操作 还 可 以 通过 apply 实 现 。 


apply: 一 般 性 的 “ 拆 分 一 应 用 一 合并 ” 

跟 aggregate 一 样 ，transform 也 是 一 个 有 着 严格 条 件 的 特殊 函数 ， 传 入 的 函数 只 能 产生 

两 种 结果 ， 要 么 产生 一 个 可 以 广播 的 标量 值 (如 np.mean) ， 要 么 产生 一 个 相同 大 小 的 
结果 数组 。 最 一 般 化 的 GroupBy 方 法 是 app1y， 本 节 剩 余部 分 将 重点 讲解 它 。 如 图 9-1 所 

示 ，app1l1y 会 将 待 处 理 的 对 象 拆 分 成 多 个 片段 ， 然 后 对 各 片段 调用 传 入 的 函数 ， 最 后 举 
试 将 各 片段 组 合 到 一 起 。 


回 到 之 前 那个 小 费 数据 集 ， 假 设 你 想 要 根据 分 组 选 出 最 高 的 5 个 tip_pct 值 。 首 先 ， 编写 
一 个 选取 指定 列 具 有 最 大 值 的 行 的 函数 评注 5， 





In [88]: def top(df，n=5，column='tip_pct'): 
: return df.sort_index(by=column)[-n:] 


评注 5， 原文 比较 材 口 ， 其 实 就 是 “在 指定 列 找 出 最 大 值 ， 然 后 把 这 个 值 所 在 的 行 选取 出 来 ”。 





278 | 第 9 章 


In [89]: top(tips, n=6) 


out[89] : 

total bill tip sex smoker day time size tip_pct 
109 14.31 4.00 Female True Sat Dinner 2 0.279525 
183 23.17 6.50 Male True Sun Dinner 4 0.280535 
232 11.61 3.39 Male False Sat Dinner 2 0.291990 
67 3.07 1.00 Female True Sat Dinner 1 0.325733 
178 9.60 4.00 Female True Sun Dinner 2 0.416667 
172 7.25 5.15 Male True Sun Dinner 2 0.710345 


现在 ， 如 果 对 smoker 分 组 并 用 该 函数 调用 apply， 就 会 得 到 : 


In [90]: tips.groupby('smoker').apply(top) 


Out[90]: 
total bill tip sex smoker day tine size tip_pct 

smoker 
No 88 24.71 5.85 Male False Thur Lunch 2 0.236746 
185 20.69 5.00 Male False Sun Dinner 5 0.241663 
51 10.29 2.60 Female False Sun Dinner 2 0.252672 
149 7.51 2.00 Male False Thur Lunch 2 0.266312 
232 11.61 3.39 Male False Sat Dinner 2 0.291990 
Yes 109 14.31 4.00 Female True Sat Dinner 2 0.279525 
183 23.17 6.50 Male True Sun Dinner 4 0.280535 
67 3.07 1.00 Female True Sat Dinner 1 0.325733 
178 9.60 4.00 Female True Sun Dinner 2 0.416667 
172 7.25 5.15 Male True Sun Dinner 2 0.710345 


这 里 发 生 了 什么 ?top 函数 在 DataFrame 的 各 个 片段 上 调用 ， 然 后 结果 由 pandas.concat 
组 装 到 一 起 ， 并 以 分 组 名 称 进行 了 标记 。 于 是 ， 最 终结 果 就 有 了 一 个 层次 化 索引 ， 其 内 
层 索 引 值 来 自 原 DataFrame。 


如 果 传 给 app1y 的 函数 能 够 接受 其 他 参数 或 关键 
一 并 传 入 : 





， 则 可 以 将 这 些 内 容 放 在 函数 名 后 面 


In [91]: tips.groupby(['smoker', ‘day']).apply(top, n=1, column='total_bill') 
OQut[91]: 
total bill tip sex smoker day time size tip_pct 


smoker day 

No Fri 94 22.75 3.25 Female False Fri Dinner 2 0.142857 
Sat 212 48.33 9.00 Male False Sat Dinner 4 0.186220 
Sun 156 48.17 5.00 Male False Sun Dinner 6 0.103799 
Thur 142 41.19 5.00 Male False Thur Lunch 5 0.121389 

Yes Fri 95 40.17 4.73 Male True Fri Dinner 4 0.117750 
Sat 170 50.81 10.00 Male True Sat Dinner 3 0.196812 
Sun 182 45.35 3.50 Male True Sun Dinner 3 0.077178 
Thur 197 43.11 5.00 Female True Thur Lunch 4 0.115982 





注意 ， 除 这 些 基本 用 法 之 外 ， 能 否 充 分 发 挥 apply 的 威力 很 大 程度 上 取决 于 你 的 创造 力 。 传 人 的 屠 
个 函数 能 做 什么 全 由 你 说 了 算 ， 它 只 需 返 回 一 个 pandas 对 象 或 标量 值 即 可 。 本 章 后 续 部 分 
的 示例 主要 用 于 讲解 如 何 利用 groupby 解 决 各 种 各 样 的 问题 。 
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可 能 你 已 经 想起 来 了 ， 之 前 我 在 GroupBy 对 象 上 调用 过 describe: 


In [92]: result = tips.groupby('smoker')['tip_pct'].describe() 


In [93]: result 


Out[93]: 
smoker 
No count 。 151.000000 
mean 0.159328 
std 0.039910 
min 0.056797 
25% 0.136906 
50% 0.155625 
75% 0.185014 
max 0.291990 
Yes count 93.000000 
mean 0.163196 
std 0.085119 
min 0.035638 
25% 0.106771 
50% 0.153846 
75% 0.195059 
max 0.710345 
In [94]: result.unstack('smoker') 
Out[94] : 
smoker No Yes 
count 151.000000 93.000000 
mean 0.159328 0.163196 
std 0.039910 0.085119 
min 0.056797 0.035638 
25% 0.136906 0.106771 
50% 0.155625 0.153846 
75% 0.185014 0.195059 
max 0.291990 0.710345 


在 GroupBy 中 ， 当 你 调用 诸如 describe 之 类 的 方法 时 ， 实 际 上 只 是 应 用 了 下 面 两 条 代码 
的 快捷 方式 而 已 : 


f = lanbda x: x.describe() 
Brouped.apply(f) 


禁止 分 组 键 


从 上 面 的 例子 中 可 以 看 出 ， 分 组 键 会 跟 原 始 对 象 的 索引 共同 构成 结果 对 象 中 的 层次 化 索 
引 。 将 group_keys=False 传 人 groupby 即 可 禁止 该 效果 : 


In [95]: tips.groupby('smoker', group_keys=False).apply(top) 


out[95]: 

total bill tip sex smoker day time size tip_pct 
88 24.71 5.85 Male False Thur Lunch 2 0.236746 
185 20.69 5.00 Male False Sun Dinner 5 0.241663 
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51 10.29 2.60 
149 7.51 2.00 
232 11.61 3.39 
109 14.31 4.00 
183 23.17 6.50 
67 3.07 1.00 
178 9.60 4.00 
172 7.25 5.15 


分 位 数 和 桶 分 析 


Female 
Male 
Male 

Female 
Male 

Female 

Female 
Male 


False 
False 
False 
True 
True 
True 
True 
True 


Sun 
Thur 
Sat 
Sat 
Sun 
Sat 
Sun 
Sun 


Dinner 

Lunch 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 


2 0.252672 
2 0.266312 
2 0.291990 
2 0.279525 
4 0.280535 
1 0.325733 
2 0.416667 
2 0.710345 


我 曾 在 第 7 章 中 讲 过 ，pandas 有 一 些 能 根据 指定 面 元 或 样本 分 位 数 将 数据 拆 分 成 多 块 的 工 
具 (比如 cut 和 qcut) 。 将 这 些 函 数 跟 groupby 结 合 起 来 ， 就 能 非常 轻松 地 实现 对 数据 集 
的 桶 (bucket) 或 分 位 数 (quantile) 分 析 了 。 以 下 面 这 个 简单 的 随机 数据 集 为 例 ， 我 们 
利用 cut 将 其 装 和 人 长 度 相等 的 桶 中 : 


In [96]: frame = DataFrame({ 


"datal': 
“data2 : 


In [97]: factor = pd.cut(frame.datal，4) 


In [98]: factor[:10] 
Out[98]: 
Categorical: 


np.random. randn(1000), 
np.random. randn(1000)}) 


array([(-1.23, 0.489], (-2.956, -1.23], (-1.23, 0.489], (0.489, 2.208], 
(-1.23, 0.489], (0.489, 2.208], (-1.23, 0.489], (-1.23, 0.489], 


(0.489, 2.208], (0.489, 2.208]], dtype=object) 


Levels (4): Index([(-2.956, -1.23], (-1.23, 0.489], (0.489, 2.208], 


(2.208, 3.928]], dtype=object) 


由 cut 返 回 的 Factor 对 象 可 直接 用 于 groupby。 因 此 ， 我 们 可 以 像 下 面 这 样 对 data2 做 一 些 


统计 计算 : 


In [99]: def get_stats(group): 
: return {'min’: group.min(), ‘max': group.max(), 
‘count': group.count(), ‘mean': group.mean()} 





In [100]: grouped = frame.data2.groupby(factor) 





In [101 
Out[101]: 

count 
datal 
(-1.23, 0.489] 598 
(-2.956, -1.23] 95 
(0.489, 2.208] 297 
(2.208, 3.928] 10 


: grouped.apply(get_stats).unstack() 


max 


3.260383 -0.002051 
1.670835 -0.039521 
2.954439 0.081822 
1.765640 0.024750 


mean 


min 


-2.989741 
-3.399312 
-3.745356 
-1.929776 





”数据 聚合 与 分 组 运算 | 281 


这 些 都 是 长 度 相等 的 桶 。 要 根据 样本 分 位 数 得 到 大 小 相等 的 桶 ， 使 用 gcut 即 可 评 这 6。 伟 
入 labels=False 即 可 只 获取 分 位 数 的 编号 。 


# 返回 分 位 数 编号 
In [102]: grouping = pd.qcut(frame.data1, 10, labels=False) 


In [103]: grouped = frame.data2.groupby(grouping) 


In [104]: grouped.apply(get_stats).unstack() 


Out[104]: 

count max mean min 
0 100 1.670835 -0.049902 -3.399312 
1 100 2.628441 0.030989 -1.950098 
2 100 2.527939 -0.067179 -2.925113 
3 100 3.260383 0.065713 -2.315555 
4 100 2.074345 -0.111653 -2.047939 
5 100 2.184810 0.052130 -2.989741 
6 100 2.458842 -0.021489 -2.223506 
7 100 2.954439 -0.026459 -3.056990 
8 100 2.735527 0.103406 -3.745356 
9 100 2.377020 0.220122 -2.064111 





示例 : 用 特定 于 分 组 的 值 填充 缺失 值 
对 于 缺失 数据 的 清理 工作 ， 有 时 你 会 用 dropna 将 其 滤 除 ， 而 有 时 则 可 能 会 希望 用 一 个 固 
定 值 或 由 数据 集 本身 所 衍生 出 来 的 值 去 填充 NA 值 。 这 时 就 得 使 用 fillna 这 个 工具 了 。 在 
下 面 这 个 例子 中 ， 我 用 平均 值 去 填充 NA 值 : 

In [105]: s = Series(np.random.randn(6)) 


In [106]: s[::2] = np.nan 


In [107]: s 
Out[107]: 

0 NaN 
1 -0.125921 
2 NaN 
3 -0.884475 
4 NaN 
5 0.227290 
In [108]: s. 们 lna(s.mean()) 
Out[108]: 

0 -0.261035 
1 -0.125921 
鱼 -0.261035 
3 -0.884475 


译注 6: 补充 说 明 一 下 。“ 长 度 相等 的 桶 ” 指 的 是 “区 间 大 小 相等 ”，“ 大 小 相等 的 桶 ” 指 的 是 
“数据 点 数量 相等 ”。 
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4 -0.261035 
5 0.227290 


假设 你 需要 对 不 同 的 分 组 填充 不 同 的 值 。 可 能 你 已 经 猜 到 了 ， 只 需 将 数据 分 组 ， 并 使 用 
apply 和 一 个 能 够 对 各 数据 块 调用 fillna 的 函数 即 可 。 下 面 是 一 些 有 关 美 国 几 个 州 的 示例 
数据 ， 这 些 州 又 被 分 为 东部 和 西部 : 


In [109]: states = ['"0hio'，'New York’, 'Vermont', 'Florida’, 
5 "Oregon' , 'Nevada' , 'California' , 'Idaho'] 


In [110]: group key = ['East’] * 4+ ['Nest'] * 4 
In [111]: data = Series(np.random.randn(8), index=states) 
In [112]: data[['Vermont', 'Nevada’, 'Idaho']] = np.nan 


In [113]: data 


Out[113]: 

Ohio 0.922264 
New York -2.153545 
Vermont NaN 
Florida -0.375842 
Oregon 0.329939 
Nevada NaN 
California 1.105913 
Idaho NaN 


In [114]: data.groupby(group_key).mean() 
Out[114]: 

East -0.535707 

West 0.717926 


我 们 可 以 用 分 组 平均 值 去 填充 NA 值 ， 如 下 所 示 : 
In [115]: fll_mean = lambda g: g.fillna(g.mean()) 


In [116]: data.groupby(group_key).apply(fill_mean) 


Out[116]: 

Ohio 0.922264 
New York -2.153545 
Vermont -0.535707 
Florida -0.375842 
Oregon 0.329939 
Nevada 0.717926 
California 1.105913 
Idaho 0.717926 


此 外 ， 也 可 以 在 代码 中 预定 义 各 组 的 填充 值 。 由 于 分 组 具有 一 个 name 属 性 ， 所 以 我 们 可 
以 拿 来 用 一 下 : 


In [117]: fill_values = {'East': 0.5, ‘West’: -1} 
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In [118]: 们 1 func = lambda g: g.fillna(fill_ values[g.name]) 


In [119]: data.groupby(group_key).apply(fl1_ func) 


Out[119]: 

Ohio 0.922264 
New York -2.153545 
Vermont 0.500000 
Florida -0.375842 
Oregon 0.329939 
Nevada -1.000000 
California 1.105913 
Idaho -1.000000 


示例 : 随机 采样 和 排列 
假设 你 想 要 从 一 个 大 数据 集中 随机 抽取 样本 以 进行 蒙特 卡 罗 模 拟 (Monte Carlo 
simulation) 或 其 他 分 析 工 作 。“ 抽 取 ” 的 方式 有 很 多 ， 其 中 一 些 的 效率 会 比 其 他 的 高 很 
多 。 一 个 办 法 是 ， 选 取 np.random.permutation(N) 的 前 K 个 元 素 ， 其 中 为 完整 数据 的 大 
小 ，K 为 期 望 的 样本 大 小 。 作 为 一 个 更 有 趣 的 例子 ， 下 面 是 构造 一 副 英语 型 扑克 牌 的 一 
个 方式 : 

# 红 桃 (Hearts) 、 黑 桃 (Spades) 、 梅花 (Clubs) 、 方 片 (Diamonds) 

suits = ['H', 'S', 'C', 'D'] 

card_ val = (range(1, 11) + [10] * 3) * 4 

base_names = ['A'] + range(2, 11) + [']', 'K', 'Q'] 

cards = [] 

for suit in ['H', 'S', 'C', ‘0']: 

cards.extend(str(num) + suit for num in base_ names) 


deck = Series(card_val, index=cards) 


现在 我 有 了 一 个 长 度 为 52 的 Series， 其 索引 为 牌 名 ， 值 则 是 21 点 或 其 他 游戏 中 用 于 计 分 
的 点 数 (为 了 简单 起 见 ， 我 当 A 的 点 数 为 1) : 


In [121]: deck[:13] 
Out[121]: 





现在 ， 根 据 我 上 面 所 讲 的 ， 从 整 副 牌 中 抽出 5 张 ， 代 码 如 下 : 


In ls def draw(deck, n=5): 
:return deck.take(np.random.permutation(len(deck))[:n]) 


In [123]: draw(deck) 


Out[123]: 

AD 1 
8C 8 
SH 5 
KC 10 
2C 2 


假设 你 想 要 从 每 种 花色 中 随机 抽取 两 张 牌 。 由 于 花色 是 牌 名 的 最 后 一 个 字符 ， 所 以 我 们 
可 以 据 此 进行 分 组 ， 并 使 用 apply: 


In [124]: get_suit = lambda card: card[-1] # 只 要 最 后 一 个 字母 就 可 以 了 


In [125]: deck.groupby(get_suit).apply(draw, n=2) 


Out[125]: 
"i 
家 “| 哮 
D KD 10 
8D 8 
H KH 10 
3H 3 
5 25 2 
45 4 


# 另 一 种 办 法 
In [126]: deck.groupby(get_suit, group_keys=False).apply(draw, n=2) 


Out[126]: 
KC 10 
]C 10 
AD 1 
5D 5 
5H 5 
6H 6 
75 7 
KS 10 


示例 : 分 组 加 权 平 均 数 和 相关 系数 
根据 groupby 的 “ 拆 分 一 应 用 一 合并 ”范式 ，DataFrame 的 列 与 列 之 间或 两 个 Series 之 间 
的 运算 (比如 分 组 加 权 平均 ) 成 为 一 种 标准 作业 。 以 下 面 这 个 数据 集 为 例 ， 它 含有 分 组 
键 、 值 以 及 一 些 权重 值 : 

In [127]: df = DataFrame({'category’: [a’, ‘a’, ‘a’, ab ‘b', ‘b', 'b'], 


‘data’: np.random.randn(8), 
"weights': np.random.rand(8)}) 
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In [128]: df 

Out[128] : 

category data weights 
a 1.561587 0.957515 
a 1.219984 0.347267 
a -0.482239 0.581362 
a 0.315667 0.217091 
b -0.047852 0.894406 
b -0.454145 0.918564 
b -0.556774 0.277825 
b 0.253321 0.955905 


oupwNro 


然后 可 以 利用 category 计 算 分 组 加 权 平 均 数 : 
In [129]: grouped = df.groupby('category') 
In [130]: get wavg = lambda g: np.average(g['data'], weights=g[ "weights']) 


In [131]: grouped.apply(get_wavg) 


Out[131]: 
category 
a 0.811643 
b -0.122262 


这 个 例子 比较 无 聊 ， 所 以 再 看 一 个 稍微 实际 点 的 例子 一 一 来 自 Yahoo! Finance 的 数据 集 ， 
其 中 含有 标准 普尔 500 指 数 (SPX 字 段 ) 和 几 只 股票 的 收盘 价 : 





In [132]: close px = pd.read_csv('cho9/stock px.csv', parse_dates=True, index_col=0) 


In [133]: close_px 

Out[133]: 

<class 'pandas.core.frame.DataFrane'> 

DatetimeIndex: 2214 entries, 2003-01-02 00:00:00 to 2011-10-14 00:00:00 
Data columns: 

AAPL 2214 non-null values 

MSFT 2214 non-null values 

XOM 2214 non-null values 

SPX 2214 non-null values 

dtypes: float64(4) 


In [134]: close_px[-4:] 
Out[134] : 

AAPL MSFT XOM SPX 
2011-10-11 400.29 27.00 76.27 1195.54 
2011-10-12 402.19 26.96 77.16 1207.25 
2011-10-13 408.43 27.18 76.37 1203.66 
2011-10-14 422.00 27.27 78.11 1224.58 


来 做 一 个 比较 有 趣 的 任务 : 计算 一 个 由 日 收益 率 (通过 百分数 变化 计算 ) 与 SPX 之 间 的 
年 度 相 关系 数组 成 的 DataFrame。 下 面 是 一 个 实现 办 法 : 


In [135]: rets = close_px.pct_change().dropna() 
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In [136]: 
In [137]: 


In [138]: 


by_ year 


Out[138] : 


2003 0. 
2004 0. 
2005 0 
2006 0. 
2007 0. 
2008 0. 
2009 0. 
2010 0. 
2011 0. 


当然 ， 你 还 可 以 计算 列 


# 苹果 和 微软 的 年 度 相关 系数 


In [139]: by_year.apply(lambda g: g['AAPL'].corr(g['MSFT'])) 


AAPL 
541124 
374283 


“467540 


428267 


681434 
707103 
710105 
691931 


Out[139]: 


2003 
2004 
2005 
2006 
2007 
2008 
2009 
2010 
2011 


0.480868 
0.259024 
0.300093 
0.161735 
0.417738 
0.611901 
0.432738 
0.571946 
0.581987 


by_year. 


spx_corr = lambda x: x.corrwith(x['SPX']) 


= rets.groupby(lambda x: x.year) 


apply(spx_corr) 


MSFT 


0.745174 
0.588531 
0.562374 
0.406126 
508118 0. 
0 
0， 
0 
0 


658770 


.804626 
.654902 
.730118 
.800996 


XOM 
0.661265 
0.557742 
0.631010 
0.518514 
0.786264 
0.828303 
0.797921 
0.839057 
0.859975 


SPX 


poppppPPP 


与 列 之 间 的 相关 系数 : 


示例 : 面向 分 组 的 线性 回归 
顺 着 上 一 个 例子 继续 ， 你 可 以 用 groupby 执 行 更 为 复杂 的 分 组 统计 分 析 ， 只 要 函数 
返回 的 是 pandas 对 象 或 标量 


statsmodels 库 ) 对 各 数据 块 执行 普通 最 小 二 


归 ， 


import statsmodels.api as sm 
def regress(data, yvar, xvars): 


过 





data[yvar] 
ata[xvars] 
和 intercept'] = 
Tesult = 





Teturn result.params 


sm。 ostv, x).fit() 


现在 ， 为 了 按 年 计算 AAPL 对 SPX 收 益 率 的 线性 回归 ， 我 执行 : 


In [141]: 
Out[141] : 








by_year.apply(regress, 


"AAPL', ['SPX']) 


量 值 即 可 。 例 如 ， 我 可 以 定义 下 面 这 个 regress 函 数 ( 利 用 
-乘法 (Ordinary Least Squares，OLS) 回 
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2003 
2004 
2005 
2006 
2007 
2008 
2009 
2010 
2011 


SPX intercept 


.195406 
.363463 
766415 
645496 
198761 
968016 
879103 
052608 
0.806605 


roorperpor 


0.00071( 
0.00420: 


0 
1 
0.003246 
0.00008! 
0.00343 
-0.00111| 
0.00295: 
0.00126: 
0.00151， 


0 
8 
0 
4 
4 


透视 表 和 交叉 表 


透视 表 (pivot table) 是 各 种 电子 表格 程序 和 其 他 数据 分 析 软 件 中 一 种 常见 的 数据 汇总 工 
具 。 它 根据 一 个 或 多 个 键 对 数据 进行 聚合 ， 并 根据 行 和 列 上 的 分 组 键 将 数据 分 配 到 各 个 
和 矩形 区 域 中 。 在 Python 和 pandas 中 ， 可 以 通过 本 章 所 介绍 的 groupby 功 能 以 及 (能 够 利用 
层次 化 索引 的 ) 重 塑 运算 制作 透视 表 。DataFrame 有 一 个 pivot_table 方 法 ， 此 外 还 有 一 
个 顶级 的 pandas .pivot_table 函 数 。 除 能 为 groupby 提 供 便利 之 外 ，pivot_table 还 可 以 


添加 分 项 小 计 (也 叫做 margins) 。 


回 到 小 费 数据 集 ， 假 设 我 想 要 根据 sex 和 smoker 计 算 分 组 平均 数 (pivot_table 的 默认 聚 


合 类 型 ) ， 并 将 sex 和 smoker 放 到 行 上 : 


In [142]: tips.pivot_table(rows=['sex'，'smoker']) 


Out[142]: 
Sex smoker 
Female No 
Yes 
Male No 
Yes 


size 


2.592593 
2.242424 
2.711340 
2.500000 


tip 


2.773519 
2.931515 
3.113402 
3.051167 


这 对 groupby 来 说 也 是 很 简单 的 事情 。 
根据 day 进 行 分 组 。 我 将 smoker 放 到 列 上 ， 把 day 放 到 行 上 : 


In [143]: tips.pivot_table(['tip_pct', 'size'], rows=['sex’, ‘day'], 


Out[143]: 


smoker 


sex 


Female Fri 


Male 


了 
Es 
日 
oooooeoeoee 


tip_pct 


0.156921 
0.182150 
0.160669 
0.152771 


现在 ， 假 设 我 们 只 想 聚合 tip_pct 和 size， 而 且 想 


cols= "smoker') 


Yes 


.209129 
.163817 
.237075 
.163073 
.144730 
.139067 
-173964 
.164417 


RNRNRWwNRN 


size 
No 


500000 
307692 
071429 
480000 
000000 
656250 
883721 
500000 


NONNNNDN 


total_bill 


18.105185 
17.977879 
19.791237 
22.284500 





还 可 以 对 这 个 表 作 进一步 的 处 理 ， 传 人 margins=True 添 加 分 项 小 计 。 这 将 会 添加 标签 为 
A11 的 行 和 列 ， 其 值 对 应 于 单个 等 级 中 所 有 数据 的 分 组 统计 。 在 下 面 这 个 例子 中 ，A11 值 
为 平均 数 : 不 单独 考虑 烟 民 与 非 烟 民 (A11 列 ) ， 不 单独 考虑 行 分 组 两 个 级 别 中 的 任何 
单项 (Al1 行 ) 。 


In [144]: tips.pivot_table(['tip_pct'，'size']，rows=['sex'，'day']， 
cols='smoker' ，margins=True) 





out[144] : 

size tip_pct 
smoker No Yes All No Yes All 
sex day 


Female Fri 2.500000 2.000000 2.111111 0.165296 0.209129 0.199388 
Sat 2.307692 2.200000 2.250000 0.147993 0.163817 0.156470 
Sun 3.071429 2.500000 2.944444 0.165710 0.237075 0.181569 
Thur 2.480000 2.428571 2.468750 0.155971 0.163073 0.157525 
Male Fri 2.000000 2.125000 2.100000 0.138005 0.144730 0.143385 
Sat 2.656250 2.629630 2.644068 0.162132 0.139067 0.151577 
Sun 2.883721 2.600000 2.810345 0.158291 0.173964 0.162344 
Thur 2.500000 2.300000 2.433333 0.165706 0.164417 0.165276 
All 2.668874 2.408602 2.569672 0.159328 0.163196 0.160803 


要 使 用 其 他 的 聚合 函数 ， 将 其 传 给 aggfunc 即 可 。 例 如 ， 使 用 count 或 len 可 以 得 到 有 关 分 
组 大 小 的 交叉 表 : 


In [145]: tips.pivot_table('tip_pct', rows=['sex', 'smoker'], cols='day’, 
aggfunc=len, margins=True) 





Out[145]: 

day Fri Sat Sun Thur All 

Sex smoker 

Female No 2 3 14 25 54 
Yes 和 7 33 

Male No 2 32 43 20 97 
Yes 8 27 15 10 60 

All 19 87 76 62 244 


如 果 存在 空 的 组 合 (也 就 是 NA) ， 你 可 能 会 希望 设置 一 个 fl1_value: 


In [146]: tips.pivot_table('size'，rows=['time'，'sex'，'smoker']， 
cols="day', aggfunc="sum’, fill_value=0) 








Out[146]: 
day Fri Sat Sun Thur 
time sex smoker 


Dinner Female No 2 30 43 2 
Yes 8 33 10 0 

Male No 4 85 124 0 

Yes 开 MX 把 0 

Lunch Female No 3 0 0 60 
Yes 6 0 0 1 

Male No 0 0 0 50 

Yes 5 0 0 23 
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pivot_table 的 参数 说 明 请 参见 表 9-2。 


表 9-2: pivot_table 的 参数 


参数 名 说 明 

values 待 聚合 的 列 的 名 称 。 默 认 聚 合 所 有 数值 列 

rows 用 于 分 组 的 列 名 或 其 他 分 组 键 ， 出 现在 结果 透视 表 的 行 
cols 用 于 分 组 的 列 名 或 其 他 分 组 键 ， 出 现在 结果 透视 表 的 列 


aggfunc ”聚合 函数 或 函数 列表 ， 默 认为 'mean'。 可 以 是 任何 对 groupby 有 效 的 函数 
fill_value 用 于 替换 结果 表 中 的 缺失 什 
margins 添加 行 / 列 小 计 和 总 计 ， 默 认为 False 





交叉 表 : crosstab 


交叉 表 (cross-tabulation， 简 称 crosstab) 是 一 种 用 于 计算 分 组 频率 的 特殊 透视 表 。 下 面 
这 个 范例 数据 很 典型 ， 取 自 交 叉 表 的 Wikipedia 页 : 


In [150]: data 
Out[150]: 

Sample Gender Handedness 
1 Female Right-handed 
2 Male Left-handed 
3 Female Right-handed 
4 Male Right-handed 
Male Left-handed 
6 Male Right-handed 
7 Female Right-handed 
8 Female Left-handed 
9 Male Right-handed 
0 Female Right-handed 


假设 我 们 想 要 根据 性 别 和 用 手 习 惯 对 这 段 数据 进行 统计 汇总 。 虽 然 可 以 用 pivot_table 
实现 该 功能 ， 但 是 pandas .crosstab 函 数 会 更 方便 : 


wovoaupwuNro 


In [151]: pd.crosstab(data.Gender, data.Handedness, margins=True) 


Out[151]: 
Handedness Left-handed Right-handed All 
Gender 
Female 入 4 5 
Male 2 区 “等 
All 3 7 10 


crosstab 的 前 两 个 参数 可 以 是 数组 、Series 或 数组 列表 。 再 比如 对 小 费 数 据 集 : 


In [152]: pd.crosstab([tips.time, tips.day], tips.smoker, margins=True) 
Out[152]: 
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smoker No Yes All 

time day 

Dinner Fri 多 9 2 
Sat 45 42 87 
Sun 57 19 76 
Thur 1 0 1 


Lunch Fri 全 6 加 
Thur 44 17 61 
All 151 93 244 


示例 : 2012 联 邦 选举 委员 会 数据 库 


美国 联邦 选举 委员 会 发 布 了 有 关 政 治 竞选 赞助 方面 的 数据 。 其 中 包括 赞助 者 的 姓名 、 职 
业 、 雇 主 、 地 址 以 及 出 资 额 等 信息 。 我 们 对 2012 年 美国 总 统 大选 的 数据 集 比较 感 兴 

(htip://www,fec.gov/disclosurep/PDownload.do) 。 到 编写 本 书 时 为 止 (2012 年 6 月 ) ， 
涵盖 全 美 各 州 的 完整 数据 集 是 一 个 150MB 的 CSV 文 件 (Po0000001-ALL.csv) ， 我 们 先 
用 pandas.read_csv 将 其 加 载 进来 : 


In [13]: fec = pd.read_csv('cho9/PO0000001-ALL.csv') 


In [14]: fec 

Out[14]: 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 1001731 entries, 0 to 1001730 
Data columns: 


cmte_id 1001731 non-null values 
cand_id 1001731 non-null values 
cand_nm 1001731 non-null values 
contbr_nm 1001731 non-null values 
contbr_city 1001716 non-null values 
contbr_st 1001727 non-null values 
contbr zip 1001620 non-null values 
contbr_employer 994314 non-null values 


contbr occupation 。 994433 non-null values 
contb_receipt_amt 1001731 non-null values 


contb_receipt_dt 1001731 non-null values 
receipt_desc 14166 non-null values 
memo_cd 92482 。 non-null values 
memo_text 97770 non-null values 
form_tp 1001731 non-null values 
file_num 1001731 non-null values 


dtypes: float64(1), int64(1), object(14) 
该 DataFrame 中 的 记录 如 下 所 示 : 


In [15]: fec.ix[123456] 


Out[15]: 

cmte_id C00431445 
cand_id P80003338 
cand_nm Obama, Barack 
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contbr_nm ELLMAN, IRA 


contbr_city TEMPE 
contbr_st Az 
contbr_zip 852816719 
contbr_employer ARIZONA STATE UNIVERSITY 
contbr_occupation PROFESSOR 
contb_receipt_amt 50 
contb receipt dt 01-DEC-11 
receipt_desc NaN 
memo_cd NaN 
memo_text NaN 
form tp SA17A 
file_num 772372 


Name: 123456 


你 可 能 已 经 想 出 了 许多 办 法 从 这 些 竞选 赞助 数据 中 抽取 有 关 赞 助人 和 赞助 模式 的 统计 
信息 。 我 将 在 接 下 来 的 内 容 中 介绍 几 种 不 同 的 分 析 工 作 (运用 到 目前 为 止 已 经 学 到 的 
技术 ) 。 


不 难看 出 ， 该 数据 中 没有 党 派 信息 ， 因 此 最 好 把 它 加 进去 。 通 过 unique， 你 可 以 获取 全 
部 的 候选 人 名 单 (注意 ，NumPy 不 会 输出 信息 中 字符 串 两 侧 的 引号 ) ， 


In [16]: unique_cands = fec.cand_nm.unique() 


In [17]: unique_cands 
Out[17]: 
array( [Bachmann, Michelle, Romney, Mitt, Obama, Barack, 
Roemer, Charles E. 'Buddy' III, Pawlenty, Timothy, 
Johnson, Gary Earl, Paul, Ron, Santorum, Rick, Cain, Herman, 
Gingrich, Newt, McCotter, Thaddeus G, Huntsman, Jon, Perry, Rick], 
dtype=object) 


In [18]: unique_cands[2] 
Out[18]: "Obama, Barack" 


最 简单 的 办 法 是 利用 字典 说 明 党 派 关系 汪 !: 


parties = {"'Bachmann, Michelle': 'Republican'， 
"Cain, Herman': 'Republican’, 
"Gingrich, Newt': “Republican'， 
"Huntsman, Jon': "Republican'， 
‘Johnson, Gary Earl': ‘Republican’, 
‘McCotter, Thaddeus G': ‘Republican’, 
‘0bama, Barack': 'Democrat', 
‘Paul, Ron': "Republican'， 
‘Pawlenty, Timothy': “Republican'， 
‘Perry, Rick': “Republican'， 
"Roemer, Charles E. 'Buddy' III": 'Republican’, 





注 1: “为 了 简单 起 见 ， 这 里 假设 Gary Johnson 是 一 名 共和 党 员 ， 虽 然 他 后 来 成 为 自由 党 的 候选 
人 。 
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“Romney，MNitt': “Republican'"， 
"Santorum，Rick': “Republican'} 


现在 ， 通 过 这 个 映射 以 及 Series 对 象 的 map 方 法 ， 你 可 以 根据 候选 人 姓名 得 到 一 组 党 派 信 
息 : 


In [20]: fec.cand_nm[123456:123461] 
Out[20]: 

123456 Obama, Barack 

123457 Obama, Barack 

123458 Obama, Barack 

123459 Obama, Barack 

123460 Obama, Barack 

Name: cand_nm 


In [21]: fec.cand_nm[123456:123461] .map(parties) 
Out[21]: 

123456 Democrat 

123457 Democrat 

123458 Democrat 

123459 Democrat 

123460 Democrat 

Name: cand_nm 


# 将 其 添加 为 一 个 新 列 
In [22]: fec['party’] = fec.cand_nm.map(parties) 
In [23]: fec['party'].value_counts() 
Out[23]: 


Democrat 593746 
Republican 。 407985 


这 里 有 两 个 需要 注意 的 地 方 。 第 一 ， 该 数据 既 包 括 赞助 也 包括 退 款 ( 负 的 出 资 额 ) : 
In [24]: (fec.contb_receipt_amt > 0).value_counts() 
Out[24]: 


True 991475 
False 10256 


为 了 简化 分 析 过 程 ， 我 限定 该 数据 集 只 能 有 正 的 出 资 额 : 
In [25]: fec = fec[fec.contb receipt_amt > 0] 


由 于 Barack Obama 和 Mitt Romney 是 最 主要 的 两 名 候选 人 ， 所 以 我 还 专门 准备 了 一 个 子 
集 ， 只 包含 针对 他 们 两 人 的 竞选 活动 的 赞助 信息 : 








In [26]: fec mrbo = fec[fec.cand_nm.isin(['Obana，Barack'，'Romney，Mitt'])] 


根据 职业 和 雇主 统计 赞助 信息 


基于 职业 的 赞助 信息 统计 是 另 一 种 经 常 被 研究 的 统计 任务 。 例 如 ， 律 师 们 更 倾向 于 资助 
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民主 党 ， 而 企业 主 则 更 倾向 于 资助 共和 党 。 你 可 以 不 相信 我 ， 自 己 看 那些 数据 就 知道 
了 。 首 先 ， 根 据 职业 计算 出 资 总 额 ， 这 很 简单 : 


In [27]: fec.contbr occupation.value counts()[:10] 


Out[27]: 

RETIRED 233990 
INFORMATION REQUESTED 35107 
ATTORNEY 34286 
HOMEMAKER 29931 
PHYSICIAN 23432 
INFORMATION REQUESTED PER BEST EFFORTS 21138 
ENGINEER 14334 
TEACHER 13990 
CONSULTANT 13273 
PROFESSOR 12555 


不 难看 出 ， 许 多 职业 都 涉及 相同 的 基本 工作 类 型 ， 或 者 同一 样 东西 有 多 种 变 体 。 下 面 的 
代码 片段 可 以 清理 一 些 这 样 的 数据 (将 一 个 职业 信息 映射 到 另 一 个 ) 。 注 意 ， 这 里 巧妙 
地 利用 了 dict.get， 它 允许 没有 映射 关系 的 职业 也 能 “通过 ”: 


occ_mapping = { 
INFORMATION REQUESTED PER BEST EFFORTS' : "NOT PROVIDED'， 
INFORMATION REQUESTED' : 'NOT PROVIDED'， 
‘INFORMATION REQUESTED (BEST EFFORTS)' : "NOT PROVIDED'， 
CE.0.': ‘CEO' 

} 


# 如 果 没 有 提供 相关 映射 ， 则 返回 x 
f = lambda x: occ_mapping.get(x, x) 
fec.contbr_occupation = fec.contbr_occupation.map(f) 


我 对 雇主 信息 也 进行 了 同样 的 处 理 : 


emp_mapping = { 
"INFORMATION REQUESTED PER BEST EFFORTS' : “NOT PROVIDED', 
“INFORMATION REQUESTED' : “NOT PROVIDED ， 
'SELF，: "SELF-EMPLOYED'， 
“SELF EMPLOYED' : “SELF-EMPLOYED ， 
} 


# 如 果 没 有 提供 相关 映射 ， 则 返回 x 
f = lanbda x: emp_mapping.get(x, x) 
fec.contbr_employer = fec.contbr_employer.map(f) 


现在 ， 你 可 以 通过 pivot_table 根 据 党 派 和 职业 对 数据 进行 聚合 ， 然 后 过 滤 掉 总 出 资 额 
不 足 200 万 美元 的 数据 : 
In [3 y_occupation = fec.pivot table('contb_ receipt amt', 
rows=" contbr_occupation’, 
cols='party'，aggfunc='sum') 











In [35]: over 2mm = by_occupation[by_occupation.sum(1) > 2000000] 


In [36]: over_2mm 


out[36]: 

party Democrat 
contbr_ occupation 

ATTORNEY 11141982.97 
CE0 2074974.79 
CONSULTANT 2459912.71 
ENGINEER 951525.55 
EXECUTIVE 1355161.05 
HOMEMAKER 4248875.80 
INVESTOR 884133.00 
LAWYER 3160478.87 
MANAGER 762883.22 
NOT PROVIDED 4866973.96 
OWNER 1001567.36 
PHYSICIAN 3735124.94 
PRESIDENT 1878509.95 
PROFESSOR 2165071.08 
REAL ESTATE 528902.09 
RETIRED 25305116.38 
SELF-EMPLOYED 672393.40 


Republican 


7477194.430000 
4211040.520000 
2544725.450000 
1818373.700000 
4138850.090000 
13634275.780000 
2431768.920000 
391224.320000 
1444532.370000 
20565473.010000 
2408286.920000 
3594320.240000 
4720923.760000 
296702.730000 
1625902.250000 
23561244.489999 
1640252.540000 


把 这 些 数据 做 成 柱状 图 看 起 来 会 更 加 清楚 ('barh' 表 示 水 平 柱状 图 ， 如 图 9-2 所 示 ) 


In [38]: over_ 2mm.plot(kind="barh’) 





SELF-EMPLOYED| 
RETIRED 

REAL ESTATE 
pOFESSOR| 
PRESIOENT 
pHvsician| 
OWNER 

NOT PROVIDED | 
MANAGER| 
LawrEen| 
INvESToR| 
HOMEMAKER 
Execunve| 


contbr_ occupation 


ENGINEER 
CONSULTANI 

ceo| 

ArronNEY| 





party 
Wm Democrat 
WN Republican 

















00 05 





图 9-2: 对 各 党 派 总 出 资 额 最 高 的 职业 


你 可 能 : 


选 人 进行 分 组 ， 








想 了 解 一 下 对 Obama 和 Romney 
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出 资 额 最 高 的 职业 和 企业 。 为 此 ， 我 们 先 对 候 
后 使 用 本 章 前 面 介绍 的 那 种 求 取 最 大 值 的 方 ; 
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def get_top_amounts(group, key, n=5): 
totals = group.groupby(key)['contb_receipt_amt'].sum() 


# 根据 key 对 totals 进 行 降序 排列 
return totals.order(ascending=False)[n:] 


然后 根据 职业 和 雇主 进行 聚合 : 


In [40]: grouped - fec_mrbo.groupby('cand_nm') 


In [41]: grouped.apply(get_top_anounts, ‘contbr occupation’, n=7) 
Out[41]: 


cand_nm contbr_occupation 

Obama, Barack RETIRED 25305116.38 
ATTORNEY 11141982.97 
INFORMATION REQUESTED 4866973.96 
HOMEMAKER 4248875.80 
PHYSICIAN 3735124.94 
LAWYER 3160478.87 
CONSULTANT 2459912.71 

Romney, Mitt RETIRED 11508473.59 
INFORMATION REQUESTED PER BEST EFFORTS 11396894.84 
HOMEMAKER 8147446.22 
ATTORNEY 5364718.82 
PRESIDENT 2491244.89 
EXECUTIVE 2300947.03 
C.E.0. 1968386.11 


Name: contb_receipt_amt 


In [42]: grouped.apply(get_top_amounts, 'contbr_employer', n=10) 
Out[42 





cand_nm contbr_employer 

Obama, Barack RETIRED 22694358.85 
SELF-EMPLOYED 17080985.96 
NOT EMPLOYED 8586308.70 
INFORMATION REQUESTED 5053480.37 
HOMEMAKER 2605408.54 
SELF 1076531.20 
SELF EMPLOYED 469290.00 
STUDENT 318831.45 
VOLUNTEER 257104.00 
MICROSOFT 215585.36 

Romney, Mitt INFORMATION REOUESTED PER BEST EFFORTS 12059527.24 
RETIRED 11506225.71 
HOMEMAKER 8147196.22 
SELF-EMPLOYED 7409860.98 
STUDENT 496490.94 
CREDIT SUISSE 281150.00 
MORGAN STANLEY 267266.00 
GOLDMAN SACH & CO. 238250.00 
BARCLAYS CAPITAL 162750.00 
H.I.G. CAPITAL 139500.00 


Name: contb_receipt_amt 
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对 出 资 额 分 组 
还 可 以 对 该 数据 做 另 一 种 非常 实用 的 分 析 : 利用 cut 函 数 根据 出 资 额 的 大 小 将 数据 离散 
化 到 多 个 面 元 中 : 

In [43]: bins = np.array([0, 1, 10, 100, 1000, 10000, 100000, 1000000, 10000000]) 

In [44]: labels = pd.cut(fec mrbo.contb receipt amt, bins) 

In [45]: labels 

Out[45]: 

Categorical: contb_receipt_amt 

array([(10, 100], (100, 1000], (100, 1000], ..., (1, 10], (10, 100], 
(100, 1000]], dtype=object) 


Levels (8): Index([(0, 1], (1, 10], (10, 100], (100, 1000], (1000, 10000], 
(10000，100000]，(100000，1000000]，(1000000，10000000]]，dtype=object) 


然后 根据 候选 人 姓名 以 及 面 元 标签 对 数据 进行 分 组 : 
In [46]: grouped = fec_mrbo.groupby(['cand_nm', labels]) 


In [47]: grouped.size().unstack(0) 





Out[47]: 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 493 77 
(1, 10. 40070 3681 
(10, 100] 372280 31853 
(100, 1000] 153991 43357 
(1000，10000] 22284 26186 
(10000, 100000] 村 1 
(100000,1000000] 3 NaN 
(1000000，10000000] 4 NaN 


从 这 个 数据 中 可 以 看 出 ， 在 小 额 赞助 方面 ，Obama 获 得 的 数量 比 Romney 多 得 多 。 你 还 可 
以 对 出 资 额 求 和 并 在 面 元 内 规格 化 ， 以 便 图 形 化 显示 两 位 候选 人 各 种 赞助 额度 的 比例 : 


In [48]: bucket_sums = grouped.contb_receipt_amt.sum().unstack(0) 


In [49]: bucket_sums 


Out[49] : 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 318.24 77.00 
(1, 10] 337267.62 29819.66 
(10, 100] 20288981.41 1987783.76 
(100, 1000] 54798531.46 。 22363381.69 
(1000，10000] 51753705.67 63942145.42 
(10000，100000] 59100.00 12700.00 
(100000， 1000000] 1490683.08 NaN 
(1000000，10000000] 7148839.76 NaN 
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In [50]: normed_sums = bucket_sums.div(bucket_sums.sum(axis=1), axis=0) 


In [51]: normed_sums 


Out[51]: 

cand_nm Obama, Barack Romney, Mitt 
contb_receipt_amt 

(0, 1] 0.805182 0.194818 
(1, 10] 0.918767 0.081233 
(10, 100] 0.910769 0.089231 
(100, 1000] 0.710176 0.289824 
(1000,10000] 0.447326 0.552674 
(10000, 100000] 0.823120 0.176880 
(100000，1000000] 1.000000 NaN 
(1000000，10000000] 1.000000 NaN 


In [52]: normed_sums[:-2].plot(kind="barh', stacked=True) 


我 排除 了 两 个 最 大 的 面 元 ， 因 为 这 些 不 是 由 个 人 捐赠 的 。 最 终 的 结果 如 图 9-3 所 示 。 
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图 9-3: 两 位 候选 人 收 到 的 各 种 捐赠 人 额度 的 总 额 比例 

当然 ， 还 可 以 对 该 分 析 过 程 做 许多 的 提炼 和 改进 。 比 如 说 ， 可 以 根据 赞助 人 的 姓名 和 邮 
编 对 数据 进行 聚合 ， 以 便 找 出 哪些 人 进行 了 多 次 小 额 捐款 ， 哪 些 人 又 进行 了 一 次 或 多 次 
大 额 捐款 。 我 强烈 建议 你 下 载 这 些 数据 并 自己 摸索 一 下 。 





根据 州 统计 赞助 信息 
首先 自然 是 根据 候选 人 和 州 对 数据 进行 聚合 : 


In [53]: grouped = fec mrbo.groupby(['cand_nm’, ‘contbr_st']) 
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In [54]: totals = grouped.contb_receipt amt.sum().unstack(0).fillna(0) 
In [55]: totals = totals[totals.sum(1) > 100000] 


In [56]: totals[:10] 


Out[56]: 

cand_nm Obama, Barack Romney, Mitt 
contbr_st 

AK 281840.15 86204.24 
AL 543123.48 527303.51 
AR 359247.28 105556.00 
AZ 1506476.98 = 1888436.23 
CA 23824984.24 11237636.60 
co 2132429.49 1506714.12 
CT 2068291.26 3499475.45 
DC 4373538.80 1025137.50 
DE 336669.14 82712.00 
ft 7318178.58 8338458.81 


如 果 对 各 行 除 以 总 赞助 额 ， 就 会 得 到 各 候选 人 在 各 州 的 总 赞助 额 比 例 ; 
In [57]: percent = totals.div(totals.sum(1), axis=0) 


In [58]: percent[:10] 


Out[58]: 

cand nm Obama, Barack Romney, Mitt 
contbr_st 

AK 0.765778 0.234222 
AL 0.507390 0.492610 
AR 0.772902 0.227098 
AZ 0.443745 0.556255 
CA 0.679498 0.320502 
co 0.585970 0.414030 
CT 0.371476 0.628524 
DC 0.810113 0.189887 
DE 0.802776 0.197224 
格 0.467417 0.532583 


我 认为 在 地 图 上 看 这 些 数 据 会 比较 有 意思 (第 8 章 中 介绍 过 相关 技术 ) 。 在 找到 有 关 州 
界 的 shape file (http://nationalatlas.gov/atlasfip.html?openChapters=chpbound) 并 稍微 学 
习 一 下 matplotlib 及 其 basemap 工 具 包 (Thomas Lecocq 的 博客 帮 了 我 的 大 忙 注 ) 之 后 ， 
我 终于 用 下 面 这 段 代码 画 出 了 刚才 算出 来 的 相对 百分比 这 汪 7 


from mpl_toolkits.basemap import Basemap, cm 
import numpy as np 








注 2: http://www.geophysique.be/2011/01/27/matplotlib-basemap-tutorial-07-shapefiles-unleached/ 。 
译注 7: 贿 愧 ， 折 腾 了 上 整整 两 天 ， 惕 是 没 做 出 来 。 太 郁 问 了 ， 照 着 输入 都 不 行 。 在 网 上 找 了 一 个 比 


较 有 效 的 办 法 ， 不 过 由 于 时 间 太 紧 就 没完 成 ， 希 望 读者 在 尝试 成 功 之 后 一 定 在 网 上 发 布 一 
下 ， 以 给 更 多 读者 。 
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from matplotlib import rcparams 
from matplotlib.collections import LineCollection 
import matplotlib.pyplot as plt 


from shapelib import ShapeFile 
import dbflib 


obama = percent['Obama, Barack'] 


fig = plt.figure(figsize=(12, 12)) 
ax = fig.add axes([0.1,0.1,0.8,0.8]) 


1lllat = 21; urlat = 53; lllon = -118; urlon = -62 


m = Basemap(ax=ax, projection='stere", 
lon_0=(urlon + 11lon) / 2, lat_0=(urlat + 111at) / 2, 
llernrlat=111at, urcrnrlat=urlat, llcrnrlon=lllon, 
urcrnrlon=urlon, resolution='1') 

m.drawcoastlines() 

m.drawcountries() 





shp = ShapeFile('../states/statesp020') 
dbf = dbflib.open('../states/statesp020') 


for npoly in range(shp.info()[0]): 

# 在 地 图 上 绘制 彩色 多 边 形 

shpsegs = [] 

shp_object = shp.read_object(npoly) 

verts = shp_object.vertices() 

rings = len(verts) 

for ring in range(rings): 
lons, lats = zip(*verts[ring]) 
x, y = m(lons, lats) 
shpsegs.append(zip(x,y)) 
if ring == 0: 

shapedict = dbf.read_record(npoly) 

name = shapedict['STATE'] 

lines = LineCollection(shpsegs,antialiaseds=(1,)) 


# state_to_code 字 典 ， 例 如 'ALASKA' -> 'AK' ，omitted 
try: 

per = obama[state to _code[name.upper()]] 
except KeyError: 

continue 


lines.set_facecolors('k') 
lines.set_alpha(0.75 * per) # 把 “百分比 ” 变 小 一 点 
lines.set_edgecolors('k') 
lines.set_linewidth(0.3) 


plt.show() 


最 终结 果 如 图 9-4 所 示 。 
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图 9-4: 汇集 了 所 有 赞助 统计 信息 的 美国 地 图 (颜色 越 深 表示 越 支持 民主 党 ) 
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第 10 章 


时 间 序 列 





不 管 在 哪个 领域 中 (如 金融 学 、 经 济 学 、 生 态 学 、 神 经 科学 、 物 理学 等 ) ， 时 间 序 列 
(time series) 数据 都 是 一 种 重要 的 结构 化 数据 形式 。 在 多 个 时 间 点 观察 或 测量 到 的 任何 
事物 都 可 以 形成 一 段 时 间 序 列 。 很 多 时 间 序 列 是 固定 频率 的 ， 也 就 是 说 ， 数 据点 是 根据 
某 种 规律 定期 出 现 的 (比如 每 15 秒 、 每 5 分 钟 、 每 月 出 现 一 次 ) 。 时 间 序 列 也 可 以 是 不 
定期 的 。 时 间 序 列 数据 的 意义 取决 于 具体 的 应 用 场景 ， 主 要 有 以 下 几 种 : 


。 ”时间 惟 (timestamp) ， 特 定 的 时 刻 。 
。 ”固定 时 期 (period) ， 如 2007 年 1 月 或 2010 年 全 年 。 


。 “时间 间隔 (interval) ， 由 起 始 和 结束 时 间 改 表示 。 时 期 (period) 可 以 被 看 做 间隔 
(interval) 的 特例 。 


。 ”实验 或 过 程 时 间 ， 每 个 时 间 点 都 是 相对 于 特定 起 始 时 间 的 一 个 度量 。 例 如 ， 从 放 入 
烤箱 时 起 ， 每 秒 钟 饼干 的 直径 。 


本 章 主要 讲解 前 3 种 时 间 序 列 。 许 多 技术 都 可 用 于 处 理 实验 型 时 间 序 列 ， 其 索引 可 能 是 
一 个 整数 或 浮 点 数 (表示 从 实验 开始 算 起 已 经 过 去 的 时 间 ) 。 最 简单 也 最 常见 的 时 间 序 
列 都 是 用 时 间 惟 进行 素 引 的 。 


pandas 提 供 了 一 组 标准 的 时 间 序 列 处 理工 具 和 数据 算法 。 因 此 ， 你 可 以 高 效 处 理 非常 大 
的 时 间 序 列 ， 轻 松 地 进行 切片 / 切 块 、 聚 合 、 对 定期 /不 定期 的 时 间 序 列 进行 重 采样 等 。 
可 能 你 已 经 猜 到 了 ， 这 些 工 具 中 大 部 分 都 对 金融 和 经 济 数据 尤为 有 用 ， 但 你 当然 也 可 以 
用 它们 来 分 析 服 务 器 日 志 数据 。 
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注意 本章 中 部 分 功能 和 代码 (比如 处 理 时 期 的 那些 ) 用 到 了 已 经 停止 更 新 的 scikits.timeseries 
库 。 译注 1 





日 期 和 时 间 数 据 类 型 及 工具 


Python 标准 库 包 含 用 于 日 期 (date) 和 时 间 (time) 数据 的 数据 类 型 ， 而 且 还 有 日 历 方 


面 的 功能 。 
可 以 简写 为 


In [317 


In [318 


In [319]: 
Out[319]: 


In [320]: 


我 们 主要 会 用 到 datetime、time 以 及 calendar 模 块 。datetime.datetime (也 
datetime) 是 用 得 最 多 的 数据 类 型 : 


: from datetime import datetime 
: now = datetime.now() 


now 
datetime.datetime(2012, 8, 4, 17, 9, 21, 832092) 


now.year, now.month, now.day 


Out[320]: (2012, 8, 4) 


datetime 以 毫秒 形式 存储 日 期 和 时 间 。datetime.timedelta 表 示 两 个 datetime 对 象 之 间 





的 时 间 差 : 
In [321]: delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15) 
In [322]: delta 
Out[322]: datetime.timedelta(926, 56700) 
In [323]: delta.days 
Out[323]: 926 
In [324]: delta.seconds 
Out[324]: 56700 
可 以 给 datetime 对 象 加 上 (或 减 去 ) 一 个 或 多 个 timedelta， 这 样 会 产生 一 个 新 对 象 : 
In [325]: from datetime import timedelta 
In [326]: start = datetime(2011, 1, 7) 
In [327]: start + timedelta(12) 
Out[327]: datetime.datetime(2011, 1, 19, 0, 0) 
In [328]: start - 2 * timedelta(12) 





Out[328]: datetime.datetime(2010, 12, 14, 0, 0) 


datetime 模 块 中 的 数据 类 型 参见 表 10-1。 虽 然 本 章 主要 讲 的 是 pandas 数 据 类 型 和 高 级 时 
间 序 列 处 理 ， 但 你 肯定 会 在 Python 的 其 他 地 方 遇 到 有 关 datetime 的 数据 类 型 。 


译注 1: 没 找到 2.7 的 ， 但 是 网 上 好 像 有 人 用 了 。 
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表 10-1: datetime 模 块 中 的 数据 类 型 


类 型 说 明 
date 以 公历 形式 存储 日 历 日 期 (年 、 月 、 日 ) 
time 将 时 间 存 储 为 时 、 分 、 秒 、 毫 秒 


datetime 存储 日 期 和 时 间 
timedelta 表示 两 个 datetime 值 之 间 的 差 (日 、 秒 、 毫 秒 ) 





字符 串 和 datetime 的 相互 转换 


利用 stzr 或 strftime 方 法 (传人 一 个 格式 化 字符 串 ) ，datetime 对 象 和 pandas 的 
Timestamp 对 象 ( 稍 后 就 会 介绍 ) 可 以 被 格式 化 为 字符 串 : 


In [329]: stamp = datetime(2011，1，3) 


In [330]: str(stamp) In [331]: stamp.strftime('%Y-%m-%d') 
Out[330]: '2011-01-03 00:00:00" Out[331]: '2011-01-03" 


表 10-2 列 出 了 全 部 的 格式 化 编码 。datetime.strptime 也 可 以 用 这 些 格式 化 编码 将 字符 串 
转换 为 日 期 : 
In [332]: value = '2011-01-03" 


In [333]: datetime.strptime(value, ‘%Y-%m-%d') 
Out[333]: datetime.datetime(2011, 1, 3, 0, 0) 


In [334]: datestrs = ['7/6/2011', '8/6/2011'] 


In [335]: [datetime.strptime(x, '%m/%d/XY') for x in datestrs] 
Out[335]: [datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)] 


datetime.strptime 是 通过 已 知 格式 进行 日 期 解析 的 最 佳 方式 。 但 是 每 次 都 要 编写 格 
式 定义 是 很 麻烦 的 事情 ， 尤 其 是 对 于 一 些 常 见 的 日 期 格式 。 这 种 情况 下 ， 你 可 以 用 
dateutil 这 个 第 三 方 包 中 的 parser.parse 方 法 : 

In [336]: from dateutil.parser import parse 


In [337]: parse('2011-01-03') 
Out[337]: datetime.datetime(2011, 1, 3, 0, 0) 


dateuti1 可 以 解析 几乎 所 有 人 类 能 够 理解 的 日 期 表示 形式 诗 汪 ?， 


In [338]: parse('Jan 31, 1997 10:45 PM') 
Out[338]: datetime.datetime(1997, 1, 31, 22, 45) 





译注 2: 很 遗 幅 ， 中 文 不 行 。 
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在 国际 通用 的 格式 中 ， 日 通常 出 现在 月 的 前 面 ， 传 入 dayfirst=True 即 可 解决 这 个 问题 : 


In [339]: parse('6/12/2011', dayfirst=True) 

Out[339]: datetime.datetime(2011, 12, 6, 0, 0) 
pandas 通 常 是 用 于 处 理 成 组 日 期 的 ， 不 管 这 些 日 期 是 DataFrame 的 轴 索 引 还 是 列 。to_ 
datetime 方 法 可 以 解析 多 种 不 同 的 日 期 表示 形式 。 对 标准 日 期 格式 (如 ISO8601) 的 解 
析 非 常 快 。 


In [340]: datestrs 
Out[340]: ['7/6/2011', '8/6/2011'] 





: pd.to_datetime(datestrs) 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2011-07-06 00:00:00, 2011-08-06 00:00:00] 
Length: 2, Freq: None, Timezone: None 





它 还 可 以 处 理 缺 失 值 (None、 空 字符 串 等 ) : 
In [342]: idx = pd.to_datetime(datestrs + [None]) 


In [343]: idx 

Out[343]: 

<class ‘pandas.tseries.index.DatetimeIndex'> 
[2011-07-06 00:00:00，...，NaT] 

Length: 3, Freq: None, Timezone: None 


In [344]: idx[2] 
Out[344]: NaT 


In [345]: 
Out[345]: 


disnull(idx) 
rray([False, False, True], dtype=bool) 








NaT (Not a Time) 是 pandas 中 时 间 蕉 数据 的 NA 值 。 





警告 ，dateutil.parsex 是 一 个 实用 但 不 完美 的 工具 。 比 如 说 ， 它 会 把 一 些 原本 不 是 日 期 的 字符 串 
认 作 是 日 期 比如 “42” 会 被 解析 为 2042 年 的 今天 ) 。 








表 10-2: datetime 格 式 定义 (兼容 ISO C89) 


代码 ”说 明 
9%Y 4 位 数 的 年 
9%y 2 位 数 的 年 


%m ”2 位 数 的 月 [01, 12] 
%d 2 位 数 的 日 [01, 31] 
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表 10-2: datetime 格 式 定义 (兼容 ISO C89) ( 续 ) 
代码 “说明 

%H 时 (24 小 时 制 ) [00, 23] 

%l 时 (12 小 时 制 ) [01, 12] 

%M ”2 位 数 的 分 [00, 59] 

%5 秒 [00, 61] ( 秒 60 和 61 用 于 关 秒 ) 

hw 用 整数 表示 的 星期 几 [0 (星期 天 ) ,6] 


%U 每 年 的 第 几 周 [00, 53]。 星 期 天 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 天 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 


%W ”每 年 的 第 几 周 [00, 53]。 星 期 一 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 一 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 

%z 以 +HHMM 或 -HHMM 表 示 的 UTC 时 区 偏 移 量 ， 如 果 时 区 为 naive 放 二， 则 返回 空 
字符 惠 

9%F %Y-%m-%d 简 写 形式 ， 例 如 2012-4-18 

%D %m/%d/%y 简 写 形 式 ， 例 如 04/18/12 


译注 4 





datetime 对 象 还 有 一 些 特 定 于 当前 环境 (位 于 不 同 国家 或 使 用 不 同 语言 的 系统 ) 的 格式 
化 选项 。 例 如 ， 德 语 或 法 语系 统 所 用 的 月 份 简写 就 与 英语 系统 所 用 的 不 同 。 

表 10-3: 特定 于 当前 环境 的 日 期 格式 

代码 ”说明 

%a ”星期 几 的 简写 

%A ”星期 几 的 全 称 

%b 月份 的 简写 

%B 月 份 的 全 称 

Wc 完整 的 日 期 和 时 间 ， 例 如 “Tue 01 May 2012 04:20:57 PM” 

%p ”不 同 环境 中 的 AM 或 PM 


%x ”适合 于 当前 环境 的 日 期 格式 ， 例 如 ， 在 美国 ，“May 1, 2012” 会 产生 
“05/01/2012” 


%X 适合 于 当前 环境 的 时 间 格 式 ， 例 如 “04:24:12 PM” 





译注 3: 更 准确 一 点 地 讲 ， 应 该 是 时 间 对 象 ， 而 不 是 时 区 。 时 间 对 象 有 naive 和 aware 之 分 ， 简 单 地 
说 ， 就 是 有 没有 人 为 调整 (比如 夏令 时 之 类 的 东西 ) 。 


译注 4: 应 该 是 2012-04-18 才 对 。 
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时 间 序 列 基础 


pandas 最 基本 的 时 间 序 列 类 型 就 是 以 时 间 惟 (通常 以 Python 字 符 串 或 4atatime 对 象 表 
示 ) 为 索引 的 Series: 


In [346]: from datetime import datetime 





: dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7), 
datetime(2011, 1, 8), datetime(2011, 1, 10), datetime(2011, 1, 12)] 





In [348]: ts = Series(np.random.randn(6), index=dates) 


In [349]: ts 

Out[349]: 

2011-01-02 。 0.690002 
2011-01-05 = 1.001543 
2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-10 -0.921169 
2011-01-12 -0.726213 


这 些 datetime 对 象 实际 上 是 被 放 在 一 个 DatetimeIndex 中 的 。 现 在 ， 变 量 ts 就 成 为 一 个 
TimeSeries 了 : 


In [350]: type(ts) 
Out[350]: pandas.core.series.TimeSeries 


In [351]: ts,index 

Out[351]: 

<class “pandas.tseries.index.DatetimeIndex'》 
[2011-01-02 00:00:00，...，2011-01-12 00:00:00] 
Length: 6, Freq: None, Timezone: None 





注意 ， 没 必要 显 式 使 用 TimeSeries 的 构造 函数 ， 当 创建 一 个 带 有 DatetineIndex 的 Seriesh， 
pandas 就 会 知道 该 对 象 是 一 个 时 间 序 列 。 





跟 其 他 Series 一 样 ， 不 同 索引 的 时 间 序 列 之 间 的 算术 运算 会 自动 按 日 期 对 齐 ， 


In [352]: ts + ts[::2] 


Out[352] : 

2011-01-02 1.380004 
2011-01-05 NaN 
2011-01-07 -1.006175 
2011-01-08 NaN 
2011-01-10 -1.842337 
2011-01-12 NaN 


pandas 用 NumPy 的 datetime64 数 据 类 型 以 纳 秒 形式 存储 时 间 戳 : 
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In [353]: ts.index.dtype 
Out[353]: dtype( "datetime64[ns] ) 


DatetimeIndex 中 的 各 个 标量 值 是 pandas 的 Timestamp 对 象 : 
In [354]: stamp = ts.index[0] 


In [355]: stamp 
Out[355]: <Timestamp: 2011-01-02 00:00:00> 


只 要 有 需要 ，TimeStamp 可 以 随时 自动 转换 为 datetime 对 象 。 此 外 ， 它 还 可 以 存储 频率 
信息 (如果 有 的 话 ) ， 且 知道 如 何 执行 时 区 转换 以 及 其 他 操作 。 稍 后 将 对 此 进行 详细 讲 
解 。 


索引 、 选 取 、 子 集 构造 
由 于 TimeSeries 是 Series 的 一 个 子 类 ， 所 以 在 索引 以 及 数据 选取 方面 它们 的 行为 是 一 样 
的 : 

In [356]: stamp = ts.index[2] 


In [357]: ts[stamp] 
Out[357]: -0.50308739136034464 


还 有 一 种 更 为 方便 的 用 法 : 传人 一 个 可 以 被 解释 为 日 期 的 字符 串 。 
In [358]: ts['1/10/2011'] 
Out[358]: -0.92116860801301081 


In [359]: ts['20110110'] 
Out[359]: -0.92116860801301081 


对 于 较 长 的 时 间 序 列 ， 只 需 传人 “年 ”或 “年 月 ” 即 可 轻松 选取 数据 的 切片 : 


In [360]: longer ts = Series(np.random.randn(1000), 
2 index=pd.date_range('1/1/2000', periods=1000)) 





In [361]: longer ts 
Out[361]: 

2000-01-01 0.222896 
2000-01-02 0.051316 
2000-01-03 -1.157719 
2000-01-04 0.816707 


2002-09-23 -0.395813 
2002-09-24 -0.180737 
2002-09-25 1.337508 
2002-09-26 -0.416584 
Freq: D, Length: 1000 


In [362]: longer_ts['2001'] 
Out[362]: 
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2001-01-01 -1.499503 
2001-01-02 0.545154 
2001-01-03 0.400823 
2001-01-04 -1.946230 
2001-12-28 -1.568139 
2001-12-29 -0.900887 
2001-12-30 0.652346 
2001-12-31 0.871600 


Freq: D, Length: 365 
In [363]: longer ts['2001-05'] 


Out[363]: 

2001-05-01 1.662014 
2001-05-02 -1.189203 
2001-05-03 2c0.093597 
2001-05-04 -0.539164 
2001-05-28 -0.683066 
2001-05-29 -0.950313 
2001-05-30 2c0.400710 
2001-05-31 -0.126072 


Freq: D, Length: 31 
通过 日 期 进行 切片 的 方式 只 对 规则 Series 有 效 


In [364]: ts[datetime(2011, 1, 7):] 


Out[364]: 

2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-10 -0.921169 
2011-01-12 -0.726213 


由 于 大 部 分 时 间 序列 数据 都 是 按照 时 间 先 后 排序 的 ， 因 此 你 也 可 以 用 不 存在 于 该 时 间 序 
列 中 的 时 间 惟 对 其 进行 切片 ( 即 范围 查询 ) : 


In [365]: ts 

Out[365]: 

2011-01-02 。 0.690002 
2011-01-05 。 1.001543 
2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-10 -0.921169 
2011-01-12 -0.726213 
In [366]: ts['1/6/2011°:'1/11/2011°'] 
Out[366]: 

2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-10 -0.921169 


跟 之 前 一 样 ， 这 里 可 以 传 入 字符 串 日 期 、datetime 或 Timestamp。 注 意 ， 这 样 切片 所 产生 
的 是 源 时 间 序列 的 视图 ， 跟 NumPy 数 组 的 切片 运算 是 一 样 的 。 此 外 ， 还 有 一 个 等 价 的 实 
例 方法 也 可 以 截取 两 个 日 期 之 间 TimeSeries: 
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In [367]: ts.truncate(after="1/9/2011 ) 
out[367]: 
2011-01-02 。 0.690002 
2011-01-05 。 1.001543 
2011-01-07 -0.503087 
2011-01-08 -0.622274 





上 面 这 些 操作 对 DataFrame 也 有 效 。 例 如 ， 对 DataFrame 的 行进 行 索 引 : 
In [368]: dates = pd.date_range('1/1/2000', periods=100, freq="W-WED') 
In [369]: long_df = DataFrame(np.random.randn(100, 4), 


index=dates, 
columns=['Colorado'，'Texas'，'New York', 'Ohio']) 








In [370]: long_df.ix['5-2001'] 
Out[370]: 

Colorado ~ Texas New York Ohio 
2001-05-02 0.943479 -0.349366 0.530412 -0.508724 
2001-05-09 0.230643 -0.065569 -0.248717 -0.587136 
2001-05-16 -1.022324 1.060661 0.954768 -0.511824 
2001-05-23 -1.387680 0.767902 -1.164490 1.527070 
2001-05-30 0.287542 0.715359 -0.345805 0.470886 


带 有 重复 索引 的 时 间 序 列 


在 某 些 应 用 场景 中 ， 可 能 会 存在 多 个 观测 数据 落 在 同一 个 时 间 点 上 的 情况 。 下 面 就 是 一 
个 例子 : 


In [371]: dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000','1/2/2000'， 
ee : "1/3/2000']) 


In [372]: dup_ts = Series(np.arange(5), index=dates) 


In [373]: dup_ts 
Out[373]: 

2000-01-01 
2000-01-02 
2000-01-02 
2000-01-02 
2000-01-03 


AunNpo 


通过 检查 索引 的 is_unique 属 性 ， 我 们 就 可 以 知道 它 是 不 是 唯一 的 : 


In [374]: dup_ts.index.is_unique 
Out[374]: False 


对 这 个 时 间 序 列 进行 索引 ， 要 么 产生 标量 值 ， 要 么 产生 切片 ， 具 体 要 看 所 选 的 时 间 点 是 
否 重复 : 
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In [375]: dup_ts['1/3/2000'] # 不 重复 
out[375]: 4 


In [376]: dup_ts['1/2/2000'] # 重复 
Out[376]: 

2000-01-02 1 

2000-01-02 2 

2000-01-02 3 


假设 你 想 要 对 具有 非 唯一 时 间 蕉 的 数据 进行 聚合 。 一 个 办 法 是 使 用 groupby， 并 传 入 
level=0 (索引 的 唯一 一 层 ! ) : 


In [377]: grouped = dup_ts.groupby(level=0) 


In [378]: grouped.mean() In [379]: grouped.count() 
Out[378]: Out[379]: 

2000-01-01 0 2000-01-01 1 
2000-01-02 2 2000-01-02 3 
2000-01-03 4 2000-01-03 1 


日 期 的 范围 、 频 率 以 及 移动 


pandas 中 的 时 间 序 列 一 般 被 认为 是 不 规则 的 ， 也 就 是 说 ， 它 们 没有 固定 的 频率 。 对 于 大 
部 分 应 用 程序 而 言 ， 这 是 无 所 谓 的 。 但 是 ， 它 常常 需要 以 某 种 相对 固定 的 频率 进行 分 
析 ， 比 如 每 日 、 每 月 、 每 15 分 钟 等 (这样 自然 会 在 时 间 序 列 中 引入 缺失 值 ) 。 幸 运 的 
是 ，pandas 有 一 整套 标准 时 间 序 列 频率 以 及 用 于 重 采 样 、 频 率 推断 、 生 成 固定 频率 日 期 
范围 的 工具 。 例 如 ， 我 们 可 以 将 之 前 那个 时 间 序 列 转换 为 一 个 具有 固定 频率 (每 日 ) 的 
时 间 序 列 ， 只 需 调用 resample 即 可 : 


In [380]: ts In [381]: ts.resample('D') 
Out[380]: Out[381]: 
2011-01-02 。 0.690002 2011-01-02 0.690002 
2011-01-05 。 1.001543 2011-01-03 NaN 
2011-01-07 -0.503087 2011-01-04 NaN 
2011-01-08 -0.622274 2011-01-05 1.001543 
2011-01-10 -0.921169 2011-01-06 NaN 
2011-01-12 -0.726213 2011-01-07 -0.503087 
2011-01-08 -0.622274 
2011-01-09 NaN 
2011-01-10 -0.921169 
2011-01-11 NaN 
2011-01-12 -0.726213 
Freq: D 


频率 的 转换 (或 重 采样 ) 是 一 个 比较 大 的 主题 ， 稍 后 将 专门 用 一 节 来 进行 讨论 。 这 里 我 
将 告诉 你 如 何 使 用 基本 的 频率 。 
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生成 日 期 范围 
虽然 我 之 前 用 的 时 候 没 有 明说 ， 但 你 可 能 已 经 猜 到 pandas.date_range 可 用 于 生成 指定 
长 度 的 DatetimeIndex: 


In [382]: index = pd.date range(‘4/1/2012°, "6/1/2012 ) 


In [383]: index 

Out[383]: 

<class “pandas.tseries.index.DatetimeIndex > 
[2012-04-01 00:00:00，...，2012-06-01 00:00:00] 
Length: 62，Freq: D，Timezone: None 


默认 情况 下 ，date_range 会 产生 按 天 计算 的 时 间 点 。 如 果 只 传人 起 始 或 结束 日 期 ， 那 就 
还 得 传人 一 个 表示 一 段 时 间 的 数字 : 


In [384]: pd.date range(start="4/1/2012', periods=20) 
Out[384]: 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-04-01 00:00:00，...，2012-04-20 00:00:00] 
Length: 20, Freq: D, Timezone: None 


In [385]: pd.date_range(end="6/1/2012', periods=20) 
Out[385]: 

<class ‘pandas.tseries.index.DatetimeIndex'> 
[2012-05-13 00:00:00，...，2012-06-01 00:00:00] 
Length: 20, Freq: D, Timezone: None 


起 始 和 结束 日 期 定义 了 日 期 索引 的 严格 边界 。 例 如 ， 如 果 你 想 要 生成 一 个 由 每 月 最 后 一 
个 工作 日 组 成 的 日 期 索引 ， 可 以 传人 “BM” 频 率 (表示 business end of month) ， 这 样 
就 只 会 包含 时 间 间隔 内 (或 刚好 在 边界 上 的 ) 符合 频率 要 求 的 日 期 : 


In [386]: pd.date_range("1/1/2000'， ‘12/1/2000', freq="BM') 
Out[386]: 

<class ‘pandas.tseries.index.DatetimeIndex'> 

[2000-01-31 00:00:00，...，2000-11-30 00:00:00] 

Length: 11, Freq: BM, Timezone: None 


date_range 默 认 会 保留 起 始 和 结束 时 间 戳 的 时 间 信息 (如 果 有 的 话 ) : 


In [387]: pd.date_range("5/2/2012 12:56:31', periods=5) 
Out[387]: 

«<class 'pandas.tseries.index.DatetimeIndex’> 
[2012-05-02 12:56:31, ..., 2012-05-06 12:56:31] 
Length: 5, Freq: D, Timezone: None 





有 时 ， 虽 然 起 始 和 结束 日 期 带 有 时 间 信 息 ， 但 你 希望 产生 一 组 被 规范 化 (normalize) 到 
午夜 的 时 间 戳 。normalize 选 项 即 可 实现 该 功能 : 


In [388]: pd.date range('5/2/2012 12:56:31', periods=5, normalize=True) 
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out[388] : 

<class “pandas.tseries.index.DatetimeIndex > 
[2012-05-02 00:00:00，...，2012-05-06 00:00:00] 
Length: 5，Freq: D，Timezone: None 


频率 和 日 期 偏 移 量 
pandas 中 的 频率 是 由 一 个 基础 频率 (base frequency) 和 一 个 乘 数 组 成 的 。 基 础 频率 通常 
以 一 个 字符 串 别 名 表示 ， 比 如 “M” 表 示 每 月 ，“H” 表 示 每 小 时 。 对 于 每 个 基础 频率 ， 
都 有 一 个 被 称 为 日 期 偏 移 量 (date offset) 的 对 象 与 之 对 应 。 例 如 ， 按 小 时 计算 的 频率 可 
以 用 Hour 类 表示 : 

In [389]: from pandas.tseries.offsets import Hour, Minute 


In [390]: hour = Hour() 


In [391]: hour 
Out[391]: <1 Hour> 


传人 一 个 整数 即 可 定义 偏 移 量 的 倍数 : 
In [392]: four_hours = Hour(4) 


In [393]: four_hours 
Out[393]: <4 Hours> 


一 般 来 说 ， 无 需 显 式 创建 这 样 的 对 象 ， 只 需 使 用 诸如 “H” 或 “4H” 这 样 的 字符 囊 别名 即 
可 。 在 基础 频率 前 面 放 上 一 个 整数 即 可 创建 倍数 : 
In [394]: pd.date_range('1/1/2000', '1/3/2000 23:59', freq='4h') 
Out[394]: 
<class ‘pandas.tseries.index.DatetimeIndex'> 


[2000-01-01 00:00:00, ， 2000-01-03 20:00:00] 
Length: 18, Freq: 4H, Timezone: None 


大 部 分 偏 移 量 对 象 都 可 通过 加 法 进行 连接 : 











In [395]: Hour(2) + Minute(30) 
Out[395]: <150 Minutes> 


同 理 ， 你 也 可 以 传 入 频率 字符 串 (如 “2h3omin”) ， 这 种 字符 串 可 以 被 高 效 地 解析 为 
等 效 的 表达 式 : 


In [396]: pd.date_range('"1/1/2000'，periods=10，freq='1lh3omin') 
Out[396]: 

<class ‘pandas.tseries. index.DatetimeIndex'> 

[2000-01-01 00:00:00, ..., 2000-01-01 13:30:00] 

Length: 10, Freq: 90T, Timezone: None 
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有 些 频率 所 描述 的 时 间 点 并 不 是 均匀 分 隔 的 。 例 如 ， 
最 后 一 个 工作 日 ) 就 取决 于 每 月 的 天 数 ， 对 于 后 者 ， 还 要 考虑 月 末 是 不 是 周末 。 由 于 没 
有 更 好 的 术语 ， 我 将 这 些 称 为 锁 点 偏 移 量 (anchored offset) 。 


表 10-4 列 出 了 pandas 中 的 频率 代码 和 日 期 偏 移 量 类 。 


“M” (日 历 月 末 ) 和 “BM” (每 月 





注意 : 用 户 可 以 根据 实际 需求 自 定义 一 些 频 率 类 以 便 提供 pandas 所 没有 的 日 期 逻辑 ， 但 具体 的 细 


节 超 出 了 本 书 的 范围 





表 10-4: 时 间 序列 的 基础 频率 
别名 


BMS 
W-MON、W-TUE… 


WOM-1MON、WOM-2MON… 


Q-JAN、Q-FEB… 


BQ-JAN、BQ-FEB… 


偏 移 量 类 型 
Day 

BusinessDay 

Hour 

Minute 

Second 

Milli 

Micro 

MonthEnd 
BusinessMonthEnd 
MonthBegin 
BusinessMonthBegin 
Week 


WeekOfMonth 


QuarterEnd 


BusinessQuarterEnd 


说 明 

每 日 历 日 

每 工作 日 

每 小 时 

每 分 

每 秒 

每 毫秒 ( 即 每 千 分 之 一 秒 ) 
每 微 秒 ( 即 每 百 万 分 之 一 秒 ) 
每 月 最 后 一 个 日 历 日 

每 月 最 后 一 个 工作 日 

每 月 第 一 个 日 历 日 

每 月 第 一 个 工作 日 


从 指定 的 星期 几 (MON、TUE、 
WED、THU、FRI、SAT、SUN) 开始 
算 起 ， 每 周 

产生 每 月 第 一 、 第 二 、 第 三 或 第 四 
周 的 星期 几 。 例 如 ，WOM-3FRI 表 
示 每 月 第 3 个 星期 五 

对 于 以 指定 月 份 (JAN、FEB、 
MAR、APR、MAY、JUN、JUL、 
AUG、SEP、OCT、NOV、DEC) 结束 
的 年 度 ， 每 季度 最 后 一 月 的 最 后 一 
个 日 历 日 

对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 最 后 一 个 工作 日 
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表 10-4: 时 间 序 列 的 基础 频率 〈 续 ) 


别名 偏 移 量 类 型 说 明 

QS-JAN、QS-FEB… QuarterBegin 对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 第 一 个 日 历 日 

BQS-JAN、BQS-FEB… BusinessQuarterBegin 对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 第 一 个 工作 日 

A-JAN、A-FEB… YearEnd 每 年 指定 月 份 (JAN、FEB、MAR、 


APR、MAY、JUN、JUL、AUG、SEP、 
OCT、NOV、DEC) 的 最 后 一 个 日 历 


日 

BA-JAN、BA-FEB… BusinessYearEnd 每 年 指定 月 份 的 最 后 一 个 工作 日 
AS-JAN、AS-FEB… YearBegin 每 年 指定 月 份 的 第 一 个 日 历 日 
BAS-JAN、BAS-FEB… ”BusinessYearBegin 。 每 年 指定 月 份 的 第 一 个 工作 日 





WOM 日 期 


WOM (Week Of Month) 是 一 种 非常 实用 的 频率 类 ， 它 以 WOM 开 头 。 它 使 你 能 获得 诸如 
“每 月 第 3 个 星期 五 ”之 类 的 日 期 : 


In [397]: rng = pd.date_range('1/1/2012', '9/1/2012', freq="WOM-3FRI') 


In [398]: list(rng) 

Out[398]: 

[<Timestamp: 2012-01-20 00:00: 
<Timestamp: 2012-02-17 00: 
<Timestamp: 
<Timestamp: 
<Timestamp: 
<Timestamp: 
<Timestamp: 
<Timestamp: 










2012-08-17 00: 


美国 的 股票 期 权 交易 人 会 意识 到 这 些 日 子 就 是 标准 的 月 度 到 期 日 。 


移动 (超前 和 滞后 ) 数据 


移动 (shifting) 指 的 是 沿 着 时 间 轴 将 数据 前 移 或 后 移 。Series 和 DataFrame 都 有 一 个 
shift 方 法 用 于 执行 单纯 的 前 移 或 后 移 操作 ， 保 持 索 引 不 变 : 


In [399]: ts = Series(np.random.randn(4), 

index=pd.date_range('1/1/2000', periods=4, freq='M')) 
In [aj ts In [401]: ts.shift(2) ~ In [402]: ts.shift(-2) 
Out[400]: Out[401]: Out[402]: 
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2000-01-31 0.575283 2000-01-31 NaN 2000-01-31 1.814582 


2000-02-29 0.304205 2000-02-29 NaN 2000-02-29 1.634858 
2000-03-31 1.814582 2000-03-31 0.575283 2000-03-31 NaN 
2000-04-30 1.634858 2000-04-30 0.304205 2000-04-30 NaN 
Freq: M Freq: M Freq: M 


shift 通 常用 于 计算 一 个 时 间 序 列 或 多 个 时 间 序列 (如 DataFrame 的 列 ) 中 的 百分比 变 
化 。 可 以 这 样 表达 ， 


ts / ts.shift(1) - 1 


由 于 单纯 的 移 位 操作 不 会 修改 索引 ， 所 以 部 分 数据 会 被 丢弃 。 因 此 ， 如 果 频 率 已 知 ， 则 
可 以 将 其 传 给 shift 以 便 实现 对 时 间 蕉 进行 位 移 而 不 是 对 数据 进行 简单 位 移 : 


In [403]: ts.shift(2, freq="M') 
Out[403]: 

2000-03-31 0.575283 
2000-04-30 0.304205 
2000-05-31 1.814582 
2000-06-30 1.634858 

Freq: M 


这 里 还 可 以 使 用 其 他 频率 ， 于 是 你 就 能 非常 灵活 地 对 数据 进行 超前 和 滞后 处 理 了 : 


In [404]: ts.shift(3, freq='D') In [405]: ts.shift(1, freq='3D') 
Out[404]: Out[405]: 

2000-02-03 0.575283 2000-02-03 0.575283 
2000-03-03 0.304205 2000-03-03 0.304205 
2000-04-03 1.814582 2000-04-03 1.814582 
2000-05-03 1.634858 2000-05-03 1.634858 


In [406]: ts.shift(1, freq='90T') 
Out[406]: 

2000-01-31 01:30:00 0.575283 
2000-02-29 01: 0.304205 
2000-03-31 01:30:00 1.814582 
2000-04-30 01:30:00 1.634858 





通过 偏 移 量 对 日 期 进行 位 移 

pandas 的 日 期 偏 移 量 还 可 以 用 在 datetime 或 Timestamp 对 象 上 : 
In [407]: from pandas.tseries.offsets import Day, MonthEnd 
In [408]: now = datetime(2011, 11, 17) 


In [409]: now + 3 * Day() 
Out[409]: datetime.datetime(2011, 11, 20, 0, 0) 
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如 果 加 的 是 错 点 偏 移 量 (比如 MonthEnd) ， 第 一 次 增 量 会 将 原 日 期 向 前 滚动 到 符合 频率 
规则 的 下 一 个 日 期 志 ， 


In [410]: now + MonthEnd() 
Out[410]: datetime.datetime(2011, 11, 30, 0, 0) 


In [411]: now + MonthEnd(2) 
Out[411]: datetime.datetime(2011, 12, 31, 0, 0) 


通过 锚 点 偏 移 量 的 rollforward 和 rollback 方 法 ， 可 显 式 地 将 日 期 向 前 或 向 后 “滚动 ”: 


In [412]: offset = MonthEnd() 


In [413]: offset.rollforward(now) 
Out[413]: datetime.datetime(2011, 11, 30, 0, 0) 


In [414]: offset.rollback(now) 
Out[414]: datetime.datetime(2011, 10, 31, 0, 0) 


日 期 偏 移 量 还 有 一 个 巧妙 的 用 法 ， 即 结合 groupby 使 用 这 两 个 “滚动 ”方法 : 


In Ws ts = Series(np.random.randn(20), 
Ee index=pd.date_range('1/15/2000', periods=20, freq="4d')) 


In [416]: ts.groupby(offset.rollforward).mean() 
Out[416]: 
2000-01-31 -0.448874 
2000-02-29 -0.683663 
2000-03-31 0.251920 


当然 ,更 简单 、 更 快速 地 实现 该 功能 的 办 法 是 使 用 resample ( 稍 后 将 对 此 进行 详细 介 
绍 ) : 








In [417]: ts.resample('M', how='mean') 
Out[417]: 

2000-01-31 -0.448874 

2000-02-29 -0.683663 

2000-03-31 0.251920 

Freq: M 


时 区 处 理 


时 间 序 列 处 理工 作 中 最 让 人 不 爽 的 就 是 对 时 区 的 处 理 。 尤 其 是 夏令 时 (DST) 转变 ,这 
是 一 种 最 常见 的 麻烦 事 。 就 这 一 点 来 说 ， 许 多 人 都 选择 以 协调 世界 时 (UTC， 它 是 格林 
尼 治 标准 时 间 (Greenwich Mean Time) 的 接替 者 ， 目 前 已 经 是 国际 标准 了 ) 来 处 理 时 间 


译注 5: 拿 本 例 来 说 ， 就 是 第 一 次 位 移 的 量 可 能 没有 一 个 月 那么 长 ， 就 在 当月 。 
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序列 。 时 区 是 以 UTC 偏 移 量 的 形式 表示 的 。 例 如 ， 夏 令 时 期 间 ， 纽 约 比 UTC 慢 4 小 时 ， 
而 在 全 年 其 他 时 间 则 比 UTC 慢 5 小 时 。 


在 Python 中 ， 时 区 信息 来 自 第 三 方 库 pytz， 它 使 Python 可 以 使 用 Olson 数 据 库 普 6 (汇编 
了 世界 时 区 信息 ) 。 这 对 历史 数据 非常 重要 ， 这 是 因为 由 于 各 地 政府 的 各 种 突 发 奇想 
夏令 时 转变 日 期 (甚至 UTC 偏 移 量 ) 已 经 发 生 过 多 次 改变 了 。 就 拿 美国 来 说 ，DST 转 变 
时 间 自 1900 年 以 来 就 改变 过 多 次 ! 


有 关 pytz 库 的 更 多 信息 ， 请 查阅 其 文档 。 就 本 书 而 言 ， 由 于 pandas 包 装 了 pytz 的 功能 ， 
因此 你 可 以 不 用 记忆 其 API， 只 要 记得 时 区 的 名 称 即 可 。 时 区 名 可 以 在 文档 中 找到 ， 也 
可 以 通过 交互 的 方式 查看 : 

In [418]: import pytz 


In [419]: pytz.common timezones[-5:] 
Out[419]: ['US/Eastern', ‘US/Hawaii’, ‘US/Mountain', 'US/pacific', ‘UTC'] 


要 从 pytz 中 获取 时 区 对 象 ， 使 用 pytz.timezone 即 可 : 
In [420]: tz = pytz.timezone("US/Eastern') 


In [421]: tz 
Out[421]: <DstTzInfo "US/Eastern' EST-1 day, 19:00:00 STD> 


pandas 中 的 方法 既 可 以 接受 时 区 名 也 可 以 接受 这 种 对 象 。 我 建议 只 用 时 区 名 。 


本 地 化 和 转换 


默认 情况 下 ，pandas 中 的 时 间 序 列 是 单纯 的 (naive) 时 区 。 看 看 下 面 这 个 时 间 序 列 ， 


rng = pd.date_range('3/9/2012 9:30', periods=6, freq="D') 
ts = Series(np.random.randn(len(rng)), index=rng) 


其 索引 的 tz 字段 为 None: 


In [423]: print(ts.index.tz) 
None 


在 生成 日 期 范围 的 时 候 还 可 以 加 上 一 个 时 区 集 : 


In [424]: pd.date range('3/9/2012 9:30', periods=10, freq="D', tz="UTC') 
Out [424]: 

<class 'pandas.tseries.index.DatetimeIndex"> 

[2012-03-09 09:30:00，...，2012-03-18 09:30:00] 

Length: 10, Freq: D, Timezone: UTC 


译注 6: 也 叫 时 区 信息 数据 库 ， 以 创始 人 David Olson 命 名 。 
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从 单纯 到 本 地 化 的 转换 是 通过 tz_localize 方 法 处 理 的 : 


In [425]: ts_utc = ts.tz_localize('UTC') 


In [426]: ts_utc 


Out[426] : 

2012-03-09 09:30:00+00:00 0.414615 
2012-03-10 09:30:00+00:00 0.427185 
2012-03-11 09:30:00+00:00 1.172557 
2012-03-12 09:30:00+00:00 -0.351572 
2012-03-13 09:30:00+00:00 1.454593 
2012-03-14 09:30:00+00:00 2.043319 
Freq: D 


In [427]: ts_utc.index 

Out[427]: 

<class 'pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00,..., 2012-03-14 09:30:00] 
Length: 6, Freq: D, Timezone: UTC 


一 旦 时 间 序 列 被 本 地 化 到 某 个 特定 时 区 ， 就 可 以 用 tz_convert 将 其 转换 到 别 的 时 区 了 : 


In [428]: ts_utc.tz_convert('US/Eastern’) 


Out[428]: 

2012-03-09 04:30:00-05:00 0.414615 
2012-03-10 04:30:00-05:00 0.427185 
2012-03-11 05:30:00-04:00 1.172557 
2012-03-12 05:30:00-04:00 -0.351572 
2012-03-13 05:30:00-04:00 1.454593 
2012-03-14 05:30:00-04:00 2.043319 
Freq: D 


对 于 上 面 这 种 时 间 序 列 ( 它 跨越 了 美国 东部 时 区 的 夏令 时 转变 期 ) ， 我 们 可 以 将 其 本 地 
化 到 EST， 然 后 转换 为 UTC 或 柏林 时 间 : 


In [429]: ts_eastern = ts.tz_localize('US/Eastern') 


ts_eastern.tz_convert('UTC') 








2012-03-09 14:30:00+00:00 0.414615 
2012-03-10 14:30:00+00:00 0.427185 
2012-03-11 13:30:00+00:00 1.172557 
2012-03-12 13:30:00+00:00 -0.351572 
2012-03-13 13:30:00+00:00 1.454593 
2012-03-14 13:30:00+00:00 2.043319 
Freq: D 

In [431]: ts_eastern.tz convert('Europe/Berlin’) 
Out[431 

2012-03-09 15:30:00+01:00 0.414615 
2012-03-10 15:30:00+01:00 0.427185 
2012-03-11 14:30:00+01:00 1.172557 
2012-03-12 14:30:00+01:00 -0.351572 
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2012-03-13 14:30:00+01:00 1.454593 
2012-03-14 14:30:00+01:00 2.043319 
Freq: D 


tz_localize 和 tz_convert 也 是 DatetimeIndex 的 实例 方法 : 


In [432]: ts.index.tz localize('Asia/Shanghai') 
Out[432]: 

<class ‘pandas.tseries.index.DatetimeIndex'> 
[2012-03-09 09:30:00，...，2012-03-14 09:30:00] 
Length: 6, Freq: D, Timezone: Asia/Shanghai 











警告 。 对 单纯 时 间 惟 的 本 地 化 操作 还 会 检查 夏令 时 转变 期 附近 容 易 混 消 或 不 存在 的 时 间 . 





操作 时 区 意识 型 Timestamp 对 象 
跟 时 间 序列 和 日 期 范围 差不多 ，Timestamp 对 象 也 能 被 从 单纯 型 (naive) 本 地 化 为 时 区 
意识 型 (time zone-aware) ， 并 从 一 个 时 区 转换 到 另 一 个 时 区 ， 


In [433]: stamp = pd.Timestamp('2011-03-12 04:00') 
In [434]: stanp_utc - stamp.tz_localize('utc') 


In [435]: stamp_utc.tz_convert('US/Eastern') 
Out[435]: <Timestamp: 2011-03-11 23:00:00-0500 EST, tz=US/Eastern> 


在 创建 Timestamp 时 ， 还 可 以 传 和 一 个 时 区 信息 : 
In [436]: stamp_moscow = pd.Timestamp('2011-03-12 04:00', tz="Europe/Moscow’) 


In [437]: stamp_moscow 
Out[437]: <Timestamp: 2011-03-12 04:00:00+0300 MSK, tz=Europe/Moscow> 


时 区 意识 型 Timestamp 对 象 在 内 部 保存 了 一 个 UTC 时 间 戳 值 ( 自 UNIX 纪 元 (1970 年 1 月 1 
日 ) 算 起 的 纳 秒 数 ) 。 这 个 UTC 值 在 时 区 转换 过 程 中 是 不 会 发 生变 化 的 : 


In [438]: stamp_utc.value 
Out[438] : 1299902400000000000 


In [439]: stanmp_utc.tz_convert("US/Eastern').value 
Out[439]: 1299902400000000000 


当 使 用 pandas 的 Date0ffset 对 象 执行 时 间 算 术 运 算 时 ， 运 算 过 程 会 自动 关注 是 否 存在 夏 
令 时 转变 期 : 


# 夏令 时 转变 前 30 分 钟 
In [440]: from pandas.tseries.offsets import Hour 
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In [441]: stamp = pd.Timestamp("2012-03-12 01:30', tz="US/Eastern’) 


In [442]: stamp 
Out[442]: <Timestamp: 2012-03-12 01:30:00-0400 EDT, tz=US/Eastern> 


In [443]: stamp + Hour() 
Out[443]: <Timestamp: 2012-03-12 02:30:00-0400 EDT, tz=US/Eastern> 


# 夏令 时 转变 前 90 分 钟 
In [444]: stamp = pd.Timestamp("2012-11-04 00:30', tz="US/Eastern’) 


In [445]: stamp 
Out[445]: <Timestamp: 2012-11-04 00:30:00-0400 EDT, tz=US/Eastern> 


In [446]: stamp + 2 * Hour() 
Out[446]: <Timestamp: 2012-11-04 01:30:00-0500 EST, tz=US/Eastern> 


不 同时 区 之 间 的 运算 
如 果 两 个 时 间 序 列 的 时 区 不 同 ， 在 将 它们 合并 到 一 起 时 ， 最 终结 果 就 会 是 UTC。 由 于 时 
间 惟 其 实 是 以 UTC 存储 的 ， 所 以 这 是 一 个 很 简单 的 运算 ， 并 不 需要 发 生 任何 转换 ， 


In [447]: rng = pd.date_range('3/7/2012 9:30'，periods=10，freq= "8B ) 
In [448]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [449]: ts 

Out[449] : 

2012-03-07 09:30:00 -1.749309 
2012-03-08 09:30:00 -0.387235 
2012-03-09 09:30:00 -0.208074 
2012-03-12 09:30:00 -1.221957 
2012-03-13 09:30:00 -0.067460 
2012-03-14 09:30:00 0.229005 
2012-03-15 09:30:00 -0.576234 
2012-03-16 09:30:00 0.816895 
2012-03-19 09:30:00 -0.772192 
2012-03-20 09:30:00 -1.333576 
Freq: B 


In [450]: ts1 = ts[:7].tz_localize('Europe/London') 
In [451]: ts2 = ts1[2:].tz_convert('Europe/Moscow') 
In [452]: result = tsl + ts2 

In [453]: result.index 

Out[453 
<class 'pandas.tseries.index.DatetimeIndex'> 


[2012-03-07 09:30:00，...，2012-03-15 09:30:00] 
Length: 7, Freq: B, Timezone: UTC 
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时 期 及 其 算术 运算 


时 期 (period) 表示 的 是 时 间 区 间 ， 比 如 数 日 、 数 月 、 数 季 、 数 年 等 。Period 类 所 表示 
的 就 是 这 种 数据 类 型 ， 其 构造 函数 需要 用 到 一 个 字符 串 或 整数 ， 以 及 表 10-4 中 的 频率 : 
In [454]: p = pd.Period(2007, freq="A-DEC') 


In [455]: 
Out[455]: Period('2007', 'A-DEC') 





这 个 Period 对 象 表 示 的 是 从 2007 年 1 月 1 日 到 2007 年 12 月 31 日 之 间 的 整 段 时 间 。 只 需 对 
Period 对 象 加 上 或 减 去 一 个 整数 即 可 达到 根据 其 频率 进行 位 移 的 效果 : 


In [456]: p+5 In [457]: p - 2 
Out[456]: Period('2012', 'A-DEC') Out[457]: Period('2005', 'A-DEC') 


如 果 两 个 Period 对 象 拥有 相同 的 频率 ， 则 它们 的 差 就 是 它们 之 间 的 单位 数量 : 


In [458]: pd.Period('2014', freq="A-DEC') - p 
Out[458]: 7 


period_range 函 数 可 用 于 创建 规则 的 时 期 范围 : 
In [459]: rng = pd.period_range('1/1/2000', '6/30/2000', freq="M') 


In [460]: rng 


Out[460]: 

<class 'pandas.tseries.period.PeriodIndex'> 
freq: M 

[2000-01,..., 2000-06] 

length: 6 


PeriodIndex 类 保存 了 一 组 Period， 它 可 以 在 任何 pandas 数 据 结构 中 被 用 作 轴 索引 ， 


In [461]: Series(np.random.randn(6), index=rng) 
Out[461]: 

2000-01 -0.309119 

2000-02 0.028558 

2000-03 1.129605 

2000-04 -0.374173 

2000-05 -0.011401 

2000-06 0.272924 

Freq: 吕 


PeriodIndex 类 的 构造 函数 还 允许 直接 使 用 一 组 字符 串 : 
In [462]: values = ['200103', '200202', '2003Q1'] 


In [463]: index = pd.PeriodIndex(values, freq="Q-DEC') 





In [464]: index 

Out[464]: 

<class 'pandas.tseries.period.PeriodIndex'> 
freq: Q-DEC 

[200103, ..., 200301] 

length: 3 


时 期 的 频率 转换 
Period 和 PeriodIndex 对 象 都 可 以 通过 其 asfreq 方 法 被 转换 成 别 的 频率 。 假 设 我 们 有 一 个 
年 度 时 期 ， 希 望 将 其 转换 为 当年 年 初 或 年 末 的 一 个 月 度 时 期 。 该 任务 非常 简单 : 

In [465]: p = pd.Period('2007', freq="A-DEC') 


In [466]: p.asfreq('M', how='start') In [467]: p.asfreq('M', how='end') 
Out[466]: Period('2007-01', 'M') Out[467]: Period('2007-12', 'M') 


你 可 以 将 Period('2007' ，'A-DEC' ) 看 做 一 个 被 划分 为 多 个 月 度 时 期 的 时 间 段 中 的 游标 。 
图 10-1 对 此 进行 了 说 明 。 对 于 一 个 不 以 12 月 结束 的 财政 年 度 ， 月 度 子 时 期 的 归属 情况 就 
不 一 样 了 : 

In [468]: p = pd.Period('2007', freq="'A-JUN') 


In [469]: p.asfreq('M', 'start') In [470]: p.asfreq('M', 'end') 
Out[469]: Period('2007-06', 'M') Out[470]: Period('2007-06', 'M') 


在 将 高 频率 转换 为 低频 率 时 ， 超 时 期 (superperiod) 是 由 子 时 期 (subperiod) 所 属 的 
位 置 决定 的 。 例 如 ， 在 A-JUN 频 率 中 ， 月 份 “2007 年 8 月 ”实际 上 是 属于 周期 “2008 年 ” 
的 : 

In [471]: p = pd.Period('2007-08', 'M') 


In [472]: p.asfreq('A-JUN') 
Out[472]: Period('2008', ‘A-JUN') 








PeriodIndex 或 TimeSeries 的 频率 转换 方式 也 是 如 此 : 
In [473]: rng = pd.period range('2006', '2009', freq="'A-DEC') 


In [474]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [475]: ts 
Out[475]: 

2006 -0.601544 
2007 0.574265 
2008 -0.194115 
2009 0.202225 
Freq: A-DEC 
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In [476]: ts.asfreq('M' ，how='start') In [477]: ts-asfreq("B'，how='end' 





Out[476] : Out[477]: 
2006-01 -0.601544 2006-12-29 -0.601544 
2007-01 0.574265 2007-12-31 0.574265 
2008-01 -0.194115 2008-12-31 -0.194115 
2009-01 0.202225 2009-12-31 0.202225 
Freq: M Freq: B 

Period(2011-06，M) 





Period(2011, A-DEC) 


图 10-1: Period 频 率 转换 示例 


按 季度 计算 的 时 期 频率 
季度 型 数据 在 会 计 、 人 金融 等 领域 中 很 常见 。 许 多 季度 型 数据 都 会 涉及 “ 财 年 末 ” 的 
概念 ， 通 常 是 一 年 12 个 月 中 某 月 的 最 后 一 个 日 历 日 或 工作 日 。 就 这 一 点 来 说 ， 时 期 
“201204” 根 据 财 年 末 的 不 同 会 有 不 同 的 含义 。pandas 支 持 12 种 可 能 的 季度 型 频率 ， 即 
Q-JAN 到 Q-DEC: 

In [478]: p = pd.Period('201204', freq="Q-JAN') 


In [479]: p 
Out[479]: 


在 以 1 月 结束 的 财 年 中 ，201204 是 从 11 月 到 1 月 (将 其 转换 为 日 型 频率 就 明白 了 ) 。 图 
10-2 对 此 进行 了 说 明 : 


In [480]: 
Out[480]: 


因此 ，Period 之 间 的 算术 运算 会 非常 简单 。 例 如 ， 要 获取 该 季度 倒数 第 二 个 工作 日 下 午 4 
点 的 时 间 惟 ， 你 可 以 这 样 : 


In [482]: papm = (p.asfreq("B'，'e') - 1).asfreq('T', 's') + 16 * 60 





eriod('201204' ,，"'Q-JAN') 


.asfreq('D', 'start') In [481]: p.asfreq('D', ‘end') 
eriod('2011-11-01', 'D') Out[481]: Period('2012-01-31', 'D') 








In [483]: p4pm 
Out[483]: Period('2012-01-30 16:00', 'T') 


In [484]: p4pm.to_timestamp() 
Out[484]: <Timestamp: 2012-01-30 16:00:00> 
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图 10-2: 不 同 季度 型 频率 之 间 的 转换 





period_range 还 可 用 于 生成 季度 型 范围 。 季 度 型 范围 的 算术 运算 也 跟 上 面 是 一 样 的 : 


In [485]: rng = pd.period range('2011Q3', '201204', freq="Q-JAN') 
In [486]: ts = Series(np.arange(len(rng)), index=rng) 


In [487]: ts 
Out[487]: 

201103 0 
201104 1 
201201 2 
201202 3 
201203 4 
201204 5 
Freq: Q-JAN 


In [488]: new_rng = (rng.asfreq('B'，'e') - 1).asfreq('T', 's') + 16 * 60 
In [489]: ts.index = new_rng.to_timestanp() 


In [490]: ts 
Out[490]: 

2010-10-28 16:00:00 
2011-01-28 16 
2011-04-28 16 
2011-07-28 16 
2011-10-28 16 
2012-01-30 16: 








88888 
J 





将 Timestamp 转 换 为 Period (及 其 反 向 过 程 ) 
通过 使 用 to_period 方 法 ， 可 以 将 由 时 间 蕉 索引 的 Series 和 DataFrame 对 象 转换 为 以 时 期 
索引 : 


In [491]: rng = pd.date_range('1/1/2000', periods=3, freq="M') 


In [492]: ts = Series(randn(3), index=rng) 
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In [493]: 


In [494]: 
Out[494] : 
2000-01-31 
2000-02-29 
2000-03-31 
Freq: M 
In [495]: 
Out[495]: 
2000-01 
2000-02 
2000-03 
Freq: M 


pts = ts.to_period() 
ts 
-0.505124 
2.954439 
-2.630247 
pts 
-0.505124 


2.954439 
-2.630247 


由 于 时 期 指 的 是 非 重叠 时 间 区 间 ， 因 此 对 于 给 定 的 频率 ， 一 个 时 间 戳 只 能 属于 一 个 时 
期 。 新 PeriodIndex 的 频率 默认 是 从 时 间 惟 推断 而 来 的 ， 你 也 可 以 指定 任何 别 的 频率 。 结 


果 中 允许 存在 重复 时 期 ， 
In [496]: rng = pd.date_range('1/29/2000', periods=6, freq='D') 
In [497]: ts2 = Series(randn(6), index=rng) 
In [498]: ts2.to_period('M') 
Out[498]: 
2000-01 -0.352453 
2000-01 -0.477808 
2000-01 0.161594 
2000-02 1.686833 
2000-02 0.821965 
2000-02 -0.667406 
Freq: M 


要 转换 为 时 间 戳 ， 使 用 to_timestamp 即 可 : 





In [499]: pts = ts.to_period() 
In [500]: pts 
Out[500]: 
2000-01 -0.505124 
2000-02 2.954439 
2000-03 -2.630247 
Freq: M 
In [501]: pts.to_timestamp(how='end') 
Out[501]: 
2000-01-31 -0.505124 
2000-02-29 2.954439 
2000-03-31 -2.630247 
Freq: M 
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通过 数组 创建 Periodlndex 


固定 频率 的 数据 集 通 常会 将 时 间 信息 分 开 存放 在 多 个 列 中 。 例 如 ， 在 下 面 这 个 宏观 经 济 
数据 集中 ， 年 度 和 季度 就 分 别 存放 在 不 同 的 列 中 : 


In [502]: data = pd.read_csv("cho8/macrodata.csv') 


In [503]: data.year In [504]: data.quarter 
Out[503]: Out[504]: 

0 1959 0 1 

1 1959 1 2 

2 1959 2 3 

3 1959 3 4 

199 2008 199 4 

200 2009 200 1 

201 2009 201 2 

202 2009 202 3 

Name: year, Length: 203 Name: quarter, Length: 203 


将 这 两 个 数组 以 及 一 个 频率 传人 PeriodIndex， 就 可 以 将 它们 合并 成 DataFrame 的 一 个 索 


引 ， 


In [505]: index = pd.periodIndex(year=data.year，quarter=data.quarter，freq='Q-DEC') 


In [506]: index 

Out[506]: 9 

<class “pandas.tseries.period.pPeriodIndex'> 
freq: Q-DEC 

[195901，.， 





In [507]: data.index = index 


In [508]: data.infl 
Out[508]: 

1959Q1 。 0.00 
195902 。 2.34 
195903 2.74 
195904 。 0.27 


200804 -8.79 
200901 。 0.94 
200902 ”3.37 


200903 3.56 
Freq: Q-DEC，Name: infl，Length: 203 


重 采 样 及 频率 转换 


重 采样 (resampling) 指 的 是 将 时 间 序 列 从 一 个 频率 转换 到 另 一 个 频率 的 处 理 过 程 。 将 
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高 频率 数据 聚合 到 低频 率 称 为 降 采 样 (downsampling) ， 而 将 低频 率 数 据 转换 到 高 频 
率 则 称 为 升 采样 (upsampling) 。 并 不 是 所 有 的 重 采样 都 能 被 划分 到 这 两 个 大 类 中 。 例 
如 ， 将 W-WED (每 周三 ) 转换 为 W-FRI 既 不 是 降 采 样 也 不 是 升 采样 。 


pandas 对 象 都 带 有 一 个 resample 方 法 ， 它 是 各 种 频率 转换 工作 的 主力 函数 : 


In [509]: rng = pd.date_range('1/1/2000', periods=100, freq="D') 


In [510]: ts = Series(randn(len(rng)), index=rng) 


In [511]: ts.resample('M', how='nean’) 


Out[511]: 


2000-01-31 0.170876 
2000-02-29 0.165020 
2000-03-31 0.095451 
2000-04-30 0.363566 


Freq: M 

In [512]: ts.resample('M', how='mean', kind="period’) 
Out[512]: 

2000-01 0.170876 

2000-02 0.165020 

2000-03 0.095451 

2000-04 0.363566 

Freq: HM 


resample 是 一 个 灵活 高 效 的 方法 ， 可 用 于 处 理 非 


例 说 明 其 用 法 。 


大 的 时 间 序 列 。 我 将 通过 一 系列 的 示 





表 10-5: resample 方 法 的 参数 


参数 
freq 


how='mean' 
axis=0 
fill_method=None 


closed='right' 


label='right' 


说 明 

表示 重 采样 频率 的 字符 串 或 DateOffset， 例 如 'M'、'5min' 或 
Second(15) 

用 于 产生 聚合 值 的 函数 名 或 数组 函数 ， 例 如 'mean'、'ohlc'、 
np.max 等 。 默 认为 "mean'。 其 他 常用 的 值 有 : 'first 、'last'、 
"median 、'"ohlc、'max、'min' 

重 采 样 的 轴 ， 默 认为 axis=0 

升 采样 时 如 何 插值 ， 比 如 'ffill 或 'bfill'。 默 认 不 插值 

在 降 采 样 中 ， 各 时 间 段 的 哪 一 端 是 闭合 ( 即 包 含 ) 的 ，'right' 或 
"eft'。 默 认为 "right' 

在 降 采 样 中 ， 如 何 设置 聚合 值 的 标签 ，'right' 或 'left'( 面 元 的 右边 
界 或 左边 界 ) 。 例 如 ，9:30 到 9:35 之 间 的 这 5 分 钟 会 被 标记 为 9:30 或 
9:35。 黑 认为 right (本 例 中 就 是 9.35) 








表 10-5: resample 方 法 的 参数 ( 续 ) 


参数 说 明 

loffset=None 面 元 标签 的 时 间 校 正 值 ， 比 如 '-1s' / Second(-1) 用 于 将 聚合 标签 调 
早 1 秒 

limit=None 在 前 向 或 后 向 填充 时 ， 人 允许 填充 的 最 大 时 期 数 

kind=None 聚合 到 时 期 ('period') 或 时 间 戴 (timestamp') ， 默 认 聚 合 到 时 


间 序 列 的 索引 类 型 


convention=None ” 当 重 采样 时 期 时 ， 将 低频 率 转换 到 高 频率 所 采用 的 约定 ('start' 或 
'end') 。 默 认为 'end' 





降 采 样 
将 数据 聚合 到 规整 的 低频 率 是 一 件 非常 普通 的 时 间 序 列 处 理 任务 。 待 聚合 的 数据 不 必 拥 
有 固定 的 频率 ， 期 望 的 频率 会 自动 定义 聚合 的 面 元 边界 ， 这 些 面 元 用 于 将 时 间 序 列 拆 分 
为 多 个 片段 。 例 如 ， 要 转换 到 月 度 频率 ('M' 或 'BM') ， 数 据 需要 被 划分 到 多 个 单 月 时 
间 段 中 。 各 时 间 段 都 是 半 开 放 的 。 一 个 数据 点 只 能 属于 一 个 时 间 段 ， 所 有 时 间 段 的 并 集 
必须 能 组 成 整个 时 间 帧 。 在 用 resample 对 数据 进行 降 采样 时 ， 需 要 考虑 两 样 东西 ; 
。 “各 区 间 哪 边 是 闭合 的 。 
。 “如何 标 记 各 个 聚合 面 元 ， 用 区 间 的 开头 还 是 未 尾 。 
首先 ， 我 们 来 看 一 些 “1 分 钟 ”数据 : 

In [513]: rng = pd.date range('1/1/2000', periods=12, freq='T') 

In [514]: ts = Series(np.arange(12), index=rng) 

In [515]: ts 

Out[515]: 

2000-01-01 00:00:00 

2000-01-01 


2000-01-01 
2000-01-01 





2000-01-01 00 :00 
2000-01-01 00:11:00 
Freq: T 


~ 
EE 
3 
3 
8 
EE 
8 
EE 
8 
记忆 
ESoo~vaowmwPwnnpo 


假设 你 想 要 通过 求 和 的 方式 将 这 些 数据 聚合 到 “5 分 钟 ” 块 中 : 
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In [516]: ts.resample('Smin'，how='sum') 





out[516] : 

2000-01-01 00:00:00 C0 
2000-01-01 00 15 
2000-01-01 00 40 
2000-01-01 00: 11 


Freq: 5T 


传 入 的 频率 将 会 以 “5 分 钟 ”的 增 量 定义 面 元 边界 。 默 认 情况 下 ， 面 元 的 右边 界 是 包含 
的 ， 因 此 00:00 到 00:05 的 区 间 中 是 包含 00:05 的 汪 !。 传 人 closed='left' 会 让 区 间 以 左边 
界 闭合 : 


In [517]: ts.resample('Smin’, how='sum', closed='left') 
Out[517]: 

2000-01-01 00:05:00 10 

2000-01-01 00:10:00 35 

2000-01-01 00:15:00 。 21 

Freq: 5T 





如 你 所 见 ， 最 终 的 时 间 序 列 是 以 各 面 元 右边 界 的 时 间 蕉 进行 标记 的 。 传 人 label='left' 
即 可 用 面 元 的 左边 界 对 其 进行 标记 : 


In [518]: ts.resample('5min'，how='sum'，closed-'left'，1label-'left') 
Out[518]: 

2000-01-01 00:00:00 10 

2000-01-01 00 0 35 

2000-01-01 00:10:00 21 

Freq: 5T 


图 10-3 说 明了 “1 分 钟 ”数据 被 转换 为 “5 分 钟 ”数据 的 处 理 过 程 。 





closed='left' [9%0 | 90 | 902 | 903 | 904 | 905] | 





closed='right' [900 | 901 | 902 | 903 | 904 | 905 | 


label="' left" label="right" 





图 10-3: 各 种 closed、label 约 定 的 “5 分 钟 ” 重 采样 演示 


ight'、label-'right' 这 两 个 菊 认 值 可 能 会 让 部 分 用 户 感 到 奇怪 。 在 实际 工作 
当中 ， 这 两 个 选项 的 值 比较 随意 。 对 于 某 些 目标 频率 ，c10sed-='left' 会 更 好 ， 而 对 于 其 
他 的 ， 则 closed='Tight' 才 更 为 合理 。 你 真正 应 该 关注 的 是 要 如 何 对 数据 分 段 。 


注 1: closed= 
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最 后 ， 你 可 能 希望 对 结果 索引 做 一 些 位 移 ， 比 如 从 右边 界 减 去 一 秒 以 便 更 容易 明白 该 时 
间 戳 到 底 表 示 的 是 哪个 区 间 。 只 需 通过 1offset 设 置 一 个 字符 串 或 日 期 偏 移 量 即 可 实现 
这 个 目的 : 

In [519]: ts.resanple('Smin', how='sum'", loffset="-1s') 

Out[519]: 

1999-12-31 23:59:59 0 

2000-01-01 00:04:59 15 

2000-01-01 00:09:59 40 

2000-01-01 00:14:59 11 

Freq: 5T 
此 外 ， 也 可 以 通过 调用 结果 对 象 的 shift 方 法 来 实现 该 目的 ， 这 样 就 不 需要 设置 1offset 
了 。 


OHLC 重 采样 

金融 领域 中 有 一 种 无 所 不 在 的 时 间 序 列 聚合 方式 ， 即 计算 各 面 元 的 四 个 值 : 第 一 个 
值 (open， 开 盘 ) 、 最 后 一 个 值 (close, 收盘 ) 、 最 大 值 (high， 最 高 ) 以 及 最 小 值 
(low， 最 低 ) 。 传 人 how='ohlc' 即 可 得 到 一 个 含有 这 四 种 聚合 值 的 DataFrame。 整 个 过 
程 很 高 效 ， 只 需 一 次 扫描 即 可 计算 出 结果 : 


In [520]: ts.resample('5nin'，how='ohlc') 


Out[520]: 
open high low close 
2000-01-01 00:00:00 0 0 0 0 
2000-01-01 00:05:00 1 5 1 5 
2000-01-01 00:10:00 6 10 6 10 
2000-01-01 00:15:00 11 11 11 11 
通过 groupby 进 行 重 采样 


另 一 种 降 采 样 的 办 法 是 使 用 pandas 的 groupby 功 能 。 例 如 ， 你 打算 根据 月 份 或 星期 几 进行 
分 组 ， 只 需 传人 一 个 能 够 访问 时 间 序 列 的 索引 上 的 这 些 字段 的 函数 即 可 : 

In [521]: rng = pd.date range('1/1/2000', periods=100, freq="D') 

In [522]: ts = Series(np.arange(100), index=rng) 


In [523]: ts.groupby(lambda x: x.month).mean() 


Out[523]: 

1 15 

2 45 

3 75 

4 95 

In [524]: ts.groupby(lambda x: x.weekday).mean() 
Out[524]: 

0 47.5 
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48.5 
49.5 
50.5 
51.5 
49.0 
50.0 


amwPwnn 


升 采样 和 插值 


在 将 数据 从 低频 率 转换 到 高 频率 时 ， 就 不 需要 聚合 了。 我们 来 看 一 个 # 


的 DataFrame: 


In [525 








In [526]: frame[:5] 


Out[526]: 


Colorado 


frame = DataFrame(np.random.randn(2, 4), 





此 有 一 些 周 型 数据 


index=pd.date_range('1/1/2000', periods=2, freq="W-WED'), 
columns=[ "Colorado', ‘Texas', ‘New York', ‘Ohio’]) 


Texas New York 


In [527]: df_daily = frame.resanple('D') 


In [528] 
Out[528] 





2000-01-05 
2000-01-06 
2000-01-07 
2000-01-08 
2000-01-09 
2000-01-10 
2000-01-11 
2000-01-12 


假设 你 想 要 用 前 面 的 周 型 值 填充 “ 非 星期 


df_daily 


Colorado 
-0.609657 
NaN 

NaN 

NaN 

NaN 

NaN 

NaN 
-0.263206 


reindex 的 一 样 : 


Ohio 
2000-01-05 -0.609657 -0.268837 0.195592 0.85979 
2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


将 其 重 采样 到 日 频率 ， 默 认 会 引入 缺失 值 : 


Texas New York Ohio 
-0.268837 0.195592 0.85979 
NaN NaN NaN 

NaN NaN NaN 

NaN NaN NaN 

NaN NaN NaN 

NaN NaN NaN 

NaN NaN NaN 
1.141350 -0.101937 -0.07666 





In [529]: frame.resanple("D'，fill_method='ffill') 


Out[529]: 


2000-01-05 
2000-01-06 
2000-01-07 
2000-01-08 
2000-01-09 
2000-01-10 
2000-01-11 
2000-01-12 


Colorado 


Texas New York 


-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 
-0.263206 1.141350 -0.101937 


Ohio 
0.85979 
0.85979 
0.85979 
0.85979 
0.85979 
0.85979 
0.85979 

-0.07666 


。resampling 的 填充 和 插值 方式 跟 fillna 和 
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同样 ， 这 里 也 可 以 只 填充 指定 的 时 期 数 〈 目 的 是 限制 前 面 的 观测 值 的 持续 使 用 距离 ) : 


In [530 
Out[530]: 





2000-01-05 
2000-01-06 
2000-01-07 
2000-01-08 
2000-01-09 
2000-01-10 
2000-01-11 
2000-01-12 


Colorado Texas New York 
-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 
-0.609657 -0.268837 0.195592 


NaN NaN NaN 
NaN NaN NaN 
NaN NaN NaN 
NaN NaN NaN 


-0.263206 1.141350 -0.101937 


frame.resanple('D'，fill_method='ffill'，limit=2) 


Ohio 
0.85979 
0.85979 
0.85979 

NaN 
NaN 
NaN 
NaN 
-0.07666 


注意 ， 新 的 日 期 索引 完全 没 必 要 跟 旧 的 相交 : 


In [531]: frame.resanmple('M-THU'，fill_method='ffill') 


Out[531]: 


Colorado Texas New York 


Ohio 


2000-01-06 -0.609657 -0.268837 0.195592 0.85979 


2000-01-13 


-0.263206 1.141350 -0.101937 


通过 时 期 进行 重 采样 


对 那些 使 用 时 期 索引 的 数据 进行 重 采样 是 件 非常 简单 的 事情 ， 








: frame[:5] 
Colorado ~ Texas New York 
2000-01 0.120837 1.076607 0.434200 0 


2000-02 -0. 
2000-03 -0. 
2000-04 0. 
2000-05 1. 


In [534]: annual_frame = frame.resample('A-DEC'，how='mean') 


378890 0.047831 0.341626 1 
047619 -0.821825 -0.179330 -0 
333219 -0.544615 -0.653635 -2 
612270 -0.806614 0.557884 0 





In [535]: annual_frame 


Out[535]: 


Colorado Texas New York 
2000 0.352070 -0.553642 0.196642 -0.094099 
2001 0.158207 0.042967 -0.360755 0.184687 


-0.07666 


frame = DataFrame(np.random.randn(24, 4), 
index=pd.period_range('1-2000', '12-2001', freq='M'), 
columns=['Colorado', 'Texas’, 'New York', ‘Ohio']) 


Ohio 
.056432 
.567920 
.166675 
.311026 
.580201 


Ohio 


升 采样 要 稍微 麻烦 一 些 ， 因 为 你 必须 决定 在 新 频率 中 各 区 间 的 哪 端 用 于 放置 原来 的 值 
就 像 asfreq 方 法 那样 。convention 参 数 默认 为 'end' ， 可 设置 为 "start' : 


# Q-DEC: 季度 型 (每 年 以 12 月 结束 ) 


In [536]: annual_frame.resample('Q-DEC', fill_method="ffl1') 
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out[536] : 

Colorado Texas New York Ohio 
200004 0.352070 -0.553642 0.196642 -0.094099 
2001Q1 0.352070 -0.553642 0.196642 -0.094099 
2001Q2 0.352070 -0.553642 0.196642 -0.094099 
200103 0.352070 -0.553642 0.196642 -0.094099 
200104 0.158207 0.042967 -0.360755 0.184687 


In [537]: annual_frame.resample('Q-DEC', fill method='ffill', convention='start') 
Out [537]: 
Colorado ~ Texas New York Ohio 
200001 0.352070 -0.553642 0.196642 -0.094099 
200002 0.352070 -0.553642 0.196642 -0.094099 
200003 0.352070 -0.553642 0.196642 -0.094099 
200004 0.352070 -0.553642 0.196642 -0.094099 
200101 0.158207 0.042967 -0.360755 0.184687 


由 于 时 期 指 的 是 时 间 区 间 ， 所 以 升 采样 和 降 采 样 的 规则 就 比较 严格 : 
。 ”在 降 采 样 中 ， 目 标 频 率 必 须 是 源 频率 的 子 时 期 (subperiod) 。 
。 在 升 采样 中 ， 目 标 频率 必须 是 源 频率 的 超时 期 (superperiod) 。 


如 果 不 满足 这 些 条 件 ， 就 会 引发 异常 。 这 主要 影响 的 是 按 季 、 年 、 周 计算 的 频率 。 例 
如 ， 由 Q-MAR 定 义 的 时 间 区 间 只 能 升 采样 为 A-MAR、A-JUN、A-SEP、A-DEC 等 : 


In [538]: annual frame.resample('Q-MAR'，f1_method='ffill') 
Out[538]: 
Colorado ~ Texas New York Ohio 
200103 0.352070 -0.553642 0.196642 -0.094099 
200104 0.352070 -0.553642 0.196642 -0.094099 
200201 0.352070 -0.553642 0.196642 -0.094099 
200202 0.352070 -0.553642 0.196642 -0.094099 
200203 0.158207 0.042967 -0.360755 0.184687 


时 间 序 列 绘图 


pandas 时 间 序 列 的 绘图 功能 在 日 期 格式 化 方面 比 matplotlib 原 生 的 要 好 。 来 看 下 面 这 个 例 
子 ， 我 先 从 Yahoo! Finance 下 载 了 几 只 美国 股票 的 一 些 价格 数据 ， 

In [539]: close_px_all = pd.read_csv('cho9/stock px.csv', parse_dates=True, index_col=0) 

In [540]: close px = close px_all[['AAPL', ‘MSFT', ‘XOM']] 

In [541]: close px = close_px.resample('B', fill_method="ffil1') 

In [542]: close_px 

Out[542]: 

<class "pandas.core.frame.DataFrame'> 


DatetimeIndex: 2292 entries, 2003-01-02 00:00:00 to 2011-10-14 00:00:00 
Freq: B 
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Data columns: 

AAPL 2292 non-null values 
MSFT 2292 non-null values 
XOM 2292 non-null values 
dtypes: float64(3) 


对 其 中 任意 一 列 调用 plot 即 可 生成 一 张 简单 的 图 表 ， 如 图 10-4 所 示 。 


In [544]: close_px['AAPL'].plot() 














2004 2005 2006 2007 2008 2009 2010 2011 








图 10-4: AAPL 每 日 价格 


当 对 DataFrame 调 用 plot 时 ， 所 有 时 间 序 列 都 会 被 绘制 在 一 个 subplot 上 ， 并 有 一 个 图 例 说 
明 哪个 是 哪个 。 这 里 我 只 绘制 了 2009 年 的 数据 ， 如 图 10-5 所 示 ， 月 份 和 年 度 都 被 格式 化 
到 了 X 轴 上 。 


In [546]: close_px.ix['2009'].plot() 
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图 10-5: 2009 年 的 股票 价格 
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图 10-6: 苹果 公司 在 2011 年 1 月 到 3 月 间 的 每 日 股价 





图 10-6 展 示 了 苹果 公司 在 2011 年 1 月 到 3 月 间 的 每 日 股价 。 


In [548]: close_px['AAPL'].ix['01-2011':"03-2011'].plot() 


季度 型 频率 的 数据 会 用 季度 标记 进行 格式 化 ， 这 种 事情 如 果 纯 手工 做 的 话 那 是 很 费 精 力 
的 。 如 图 10-7 所 示 。 

In [550]: appl_q = close_px['AAPL'].resample('Q-DEC'， 们 1_method='ffl1') 

In [551]: appl_q.ix['2009':].plot() 
pandas 时 间 序 列 在 绘图 方面 还 有 一 个 特点 ， 当 右键 点 击 走 汪 ' 并 拖拉 (放大 、 缩 小 ) 时 ， 


日 期 会 动态 展开 或 收缩 ， 且 绘图 窗口 中 的 时 间 区 间 会 被 重新 格式 化 。 当 然 ， 只 有 在 交互 
模式 下 使 用 matplotlib 才 会 有 此 效果 。 


400 
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300| 
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200| 
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图 10-7: 苹果 公司 在 2009 年 到 2011 年 间 的 每 季度 股价 
译注 7: 应 该 是 按 住 (hold) 而 不 是 点 去 (click) 。 
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移动 窗口 函数 


在 移动 窗口 〈 可 以 带 有 指数 衰减 权 数 ) 上 计算 的 各 种 统计 函数 也 是 一 类 常见 于 时 间 序 列 
的 数组 变换 。 我 将 它们 称 为 移动 窗口 函数 (moving window function) ， 其 中 还 包括 那些 
窗口 不 定 长 的 函数 (如 指数 加 权 移动 平均 ) 。 跟 其 他 统计 函数 一 样 ， 移 动 窗口 函数 也 会 
自动 排除 缺失 值 。 


rolling_mean 是 其 中 最 简单 的 一 个 。 它 接受 一 个 TimeSeries 或 DataFrame 以 及 一 个 window 
(表示 期 数 ) : 


In [555]: close_px.AAPL.plot() 
Out[555]: <matplotlib.axes.AxesSubplot at Ox1099b3990> 


In [556]: pd.rolling mean(close px.AAPL, 250).plot() 


结果 如 图 10-8 所 示 。 默 认 情 况 下 ， 诸 如 ro11ing_mean 这 样 的 函数 需要 指定 数量 计 汪 8 的 非 
NA 观测 值 。 可 以 修改 该 行为 以 解决 缺失 数据 的 问题 。 其 实 ， 在 时 间 序列 开始 处 尚 不 足 
窗口 期 的 那些 数据 就 是 个 特例 ( 见 图 10-9) : 


450| 
400| 
350| 
300| 
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200| 

50| 
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图 10-8: 苹果 公司 股价 的 250 日 均线 
In [558]: appl_std250 = pd.rolling_std(close_px.AAPL，250，min_periods=10) 


In [559]: appl_std250[5:12] 


Out[559]: 

2003-01-09 NaN 
2003-01-10 NaN 
2003-01-13 NaN 


2003-01-14 NaN 
2003-01-15 0.077496 
2003-01-16 0.074760 


译注 8: 这 是 针对 窗口 而 言 的 ， 即 一 个 窗口 里 面 必须 有 多 少 个 非 NA 值 。 
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2003-01-17 0.112368 
Freq: B 


In [560]: appl_std250.plot() 
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图 10-9: 苹果 公司 250 日 每 日 回报 标准 差 
要 计算 扩展 窗口 平均 (expanding window mean) ， 你 可 以 将 扩展 窗口 看 做 一 个 特殊 的 窗 
口 ， 其 长 度 与 时 间 序 列 一 样 ， 但 只 需 一 期 (或 多 期 评 E?) 即 可 计算 一 个 值 : 


# 通过 rolling_mean 定 义 扩展 平均 
In [561]: expanding_mean = lambda x: rolling_mean(x，len(x)，min_periods=1) 


对 DataFrame 调 用 rolling_mean (以 及 与 之 类 似 的 函数 ) 会 将 转换 应 用 到 所 有 的 列 上 
( 见 图 10-10) : 








In [563]: pd.rolling_mean(close_px，60).plot(logy=True) 





107 

















107 


10° 











10° 
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图 10-10: 各 股价 60 日 均线 (对 数 Y 轴 ) 


译注 9: 不 设置 就 全 空 。 也 不 要 太 大 ， 大 了 就 无 塌 义 了 - 
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表 10-6 中 列 出 了 pandas 中 的 此 类 函数 。 
表 10-6: 移动 窗口 和 指数 加 权 函 数 


函数 说 明 

rolling_count 返回 各 窗口 非 NA 观测 值 的 数量 
rolling_sum 移动 窗口 的 和 

rolling_mean 移动 窗口 的 平均 值 

rolling_median 移动 窗口 的 中 位 数 

rolling_var、 rolling_std 移动 窗口 的 方差 和 标准 差 。 分 母 为 n -1 


rolling_skew、 olling_kurt 移动 窗口 的 偏 度 (三 阶 矩 ) 和 峰 度 (四 阶 矩 ) 
rolling_min、rolling_max 移动 窗口 的 最 小 值 和 最 大 值 











rolling_quantile 移动 窗口 指定 百 分 位 数 / 样 本 分 位 数位 置 的 值 
rolling_corr、rolling_cov 移动 窗口 的 相关 系数 和 协 方差 

rolling_apply 对 移动 窗口 应 用 普通 数组 函数 

ewma 指数 加 权 移动 平均 

ewmvar、ewmstd 指数 加 权 移动 方差 和 标准 差 

ewmcorr、ewmcov 指数 加 权 移动 相关 系数 和 协 方 差 

注 bottleneck (由 Keith Goodman 制 作 的 Python 库 ) 提供 了 另 一 种 对 NaN 友 好 的 移动 窗口 函数 


集 。 值 得 一 看 ， 说 不 定 能 在 你 的 工作 中 派 上 用 场 。 





指数 加 权 函 数 

另 一 种 使 用 固定 大 小 窗口 及 相等 权 数 观测 值 的 办 法 是 ,定义 一 个 训 减 因子 (decay 
factor) 常量 ， 以 便 使 近期 的 观测 值 拥 有 更 大 的 权 数 。 用 数学 术语 来 讲 ， 如 果 mai 是 时 
间 t 的 移动 平均 结果 ，x 是 时 间 序列 ， 结 果 中 的 各 个 值 可 用 mat = amati + (a - 1)"x- 进 行 
计算 ， 其 中 a 为 衰减 因子 。 豪 减 因 子 的 定义 方式 有 很 多 ， 比 较 流行 的 是 使 用 时 间 间 隔 
(span) ， 它 可 以 使 结果 兼容 于 窗口 大 小 等 于 时 间 间 隔 的 简单 移动 窗口 (simple moving 
window) 函数 。 


由 于 指数 加 权 统 计 会 赋予 近期 的 观测 值 更 大 的 权 数 ， 因 此 相对 于 等 权 统计 尘 汪 *， 它 能 
“适应 ”更 快 的 变化 。 下 面 这 个 例子 对 比 了 苹果 公司 股价 的 60 日 移动 平均 和 s pan=60 的 
指数 加 权 移动 平均 (如 图 10-11 所 示 ) : 


译注 10: 就 是 不 加 权 的 普通 移动 平均 。 
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fig, axes = plt.subplots(nrows=2, ncols=1, sharex=True, sharey=True, figsize=(12, 7)) 
aapl_px = close_px.AAPL['2005':"2009'] 


ma60 = pd.rolling mean(aapl_px, 60, min_periods=50) 
ewma60 = pd.ewna(aapl_px, span=60) 


aapl_px.plot(style='k-', ax=axes[0]) 
ma60.plot (style: ', ax=axes[0]) 
aapl_px.plot(style="k-", ax=axes[1]) 
ewma60.plot (style="k--", ax=axes[1]) 
axes[0] .set title('Simple MA') 

axes[1].set title('Exponentially-weighted MA') 








Simple MA 
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图 10-11: 简单 移动 平均 与 指数 加 权 移动 平均 


二 元 移动 窗口 函数 

有 些 统计 运算 (如 相关 系数 和 协 方差 ) 需要 在 两 个 时 间 序列 上 执行 。 例 如 ， 金 融 分 析 师 
常常 对 某 只 股票 对 某 个 参考 指数 (如 标准 普尔 500 指 数 ) 的 相关 系数 感 兴趣 。 我 们 可 以 
通过 计算 百分数 变化 并 使 用 rolling_corr 的 方式 得 到 该 结果 (如 图 10-12 所 示 ) : 





In [569]: spx_px = close_px_all ['SPX'] 

In [570]: spx_rets = spx_px / spx_px.shift(1) - 1 

In [571]: returns = close px.pct_change() 

In [572]: corr = pd.rolling_corr(returns.AAPL，spx_rets，125，min_periods=100) 


In [573]: corr.plot() 
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图 10-12: AAPL 6 个 月 的 回报 与 标准 普尔 500 指 数 的 相关 系数 


假设 你 想 要 一 次 性 计算 多 只 股票 与 标准 普尔 500 指 数 的 相关 系数 。 虽 然 编写 一 个 循环 
并 新 建 一 个 DataFrame 不 是 什么 难事 ， 但 比较 嘿 唆 。 其 实 ， 只 需 传人 一 个 TimeSeries 
和 一 个 DataFrame，rolling_corr 就 会 自动 计算 TimeSeries (本 例 中 就 是 spx_rets) 与 
DataFrame 各 列 的 相关 系数 。 结 果 如 图 10-13 所 示 : 





In [575]: corr = pd.rolling corr(returns, spx_rets, 125, min_periods=100) 


In [576]: corr.plot() 
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图 10-13: 3 只 股票 6 个 月 的 回报 与 标准 普尔 500 指 数 的 相关 系数 


用 户 定义 的 移动 窗口 函数 
rolling_app1ly 困 数 使 你 能 够 在 移动 窗口 上 应 用 自己 设计 的 数组 函数 。 唯 一 要 求 的 
就 是 : 该 函数 要 能 从 数组 的 各 个 片段 中 产生 单个 值 ( 即 约 简 ) 。 比 如 说 ， 当 我 们 用 
rolling_quantile 计 算 样本 分 位 数 时 ， 可 能 对 样本 中 特定 值 的 百 分 等 级 感 兴趣 。scipy. 
stats.percentileofscore 函 数 就 能 达到 这 个 目的 : 
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图 10-14: AAPL 2% 回 报 率 的 百 分 等 级 (一 年 窗口 期 ) 
In [578]: from scipy.stats import percentileofscore 
In [579]: score_at 2percent = lambda x: percentileofscore(x, 0.02) 
In [580]: result = pd.rolling apply(returns.AAPL, 250, score at 2percent) 


In [581]: result.plot() 


性 能 和 内 存 使 用 方面 的 注意 事项 


Timestamp 和 Period 都 是 以 64 位 整数 表示 的 〈( 即 NumPy 的 datetime64 数 据 类 型 ) 。 也 就 是 
说 ， 对 于 每 个 数据 点 ， 其 时 间 恰 需要 占用 8 字 节 的 内 存 。 因 此 ， 含 有 一 百 万 个 float64 数 
据点 的 时 间 序 列 需 要 占用 大 约 16MB 的 内 存 空 间 。 由 于 pandas 会 尽量 在 多 个 时 间 序列 之 
间 共 享 索引 ， 所 以 创建 现 有 时 间 序 列 的 视图 不 会 占用 更 多 内 存 主 让 41。 此 外 ， 低 频率 索引 
(日 以 上 ) 会 被 存放 在 一 个 中 心 缓存 中 ， 所 以 任何 固定 频率 的 索引 都 是 该 日 期 缓存 的 视 
图 。 所 以 ， 如 果 你 有 一 个 很 大 的 低频 率 时 间 序列 ， 索 引 所 占用 的 内 存 空间 将 不 会 很 大 。 


性 能 方面 ，pandas 对 数据 对 齐 (两 个 不 同 索引 的 ts1 + ts2 的 幕后 工作 ) 和 重 采 样 运算 进 
行 了 高 度 优化 。 下 面 这 个 例子 将 一 亿 个 数据 点 聚合 为 OHLC: 
In [582]: rng = pd.date_range("1/1/2000'，periods=10000000，freq='10ms') 


In [583]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [584]: ts 
Out[584]: 
2000-01-01 00:00:00 -1.402235 


2000-01-01 00:00:00.010000 2.424667 


译注 11: 原文 就 是 这 么 表达 的 。 我 感到 很 不 解 ， 既 然 是 视图 ， 当 然 不 会 占用 多 少 内 容 ， 毕 竞 就 是 比 
单个 指针 大 点 的 东西 而 已 。 结 合 上 下 文 来 看 ， 估 计 说 的 只 是 索引 的 问题 。 
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2000-01-01 
2000-01-01 


2000-01-02 
2000-01-02 
2000-01-02 
2000-01-02 
Freq: 10L， 


In [585]: ts.resample('15min' ，how='ohlc') 





out[585 





00:00:00.020000 
00:00:00.030000 


03:46:39.960000 
03:46:39.970000 
03:46:39.980000 
03:46:39.990000 
Length: 10000000 


-1.956042 
-0.897339 


0.495530 
0.574766 
1.348374 
0.665034 


<class "pandas.core.frame.DataFrame'》 
DatetimeIndex: 113 entries, 2000-01-01 00:00:00 to 2000-01-02 04:00:00 


Freq: 15T 


Data columns: 

open 113 non-null values 
high 113 non-null values 
low 113 non-null values 
close 113 non-null values 
dtypes: float64(4) 


In [586]: %timeit ts.resample('15min'，how='ohlc') 


10 loops, best of 3: 61.1 ms per loop 


运行 时 间 跟 聚合 结果 的 相对 大 小 有 一 定 关系 ， 越 高 频率 的 聚合 所 耗费 的 时 间 越 多 ， 


In [587]: rng = pd.date_range('1/1/2000', periods=10000000, freq="1s') 


In [588]: ts = Series(np.random.randn(len(rng)), index=rng) 


In [589]: %timeit ts.resample('15s', how='ohlc') 


1 loops, best of 3: 88.2 ms per loop 


可 能 在 你 阅读 本 书 的 时 候 ， 这 些 算 法 的 性 能 已 经 大 为 改进 了 。 比 如 说 ， 目 前 并 没有 对 规 


则 频率 之 间 的 转换 做 任何 优化 ， 但 这 肯定 是 要 做 的 。 
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金融 和 经 济 数据 应 用 





从 2005 年 开始 ，Python 在 金融 行业 中 的 应 用 越 来 越 多 ， 这 主要 得 益 于 众多 成 熟 的 函数 库 
(NumPy 和 pandas) 以 及 大 量 经 验 丰富 的 Python 程序 员 。 许 多 机 构 都 发 现 Python 不 仅 非 
常 适 合成 为 交互 式 的 分 析 环境 ， 也 非常 适合 开发 稳健 的 系统 ， 而 且 所 需 的 时 间 比 Java 或 
C++ 少 得 多 。Python 还 是 一 种 非常 好 的 粘 合 层 ， 可 以 非常 轻松 地 为 C 或 C++ 编写 的 库 构建 
Python 接口 。 

金融 分 析 领域 的 内 容 博大 精深 ， 甚 至 拿 一 整 本 书 来 讲 都 不 为 过 ， 在 这 里 我 只 是 希望 告诉 
你 如 何 利用 本 书 中 的 工具 去 解决 金融 领域 中 的 一 些 特殊 问题 。 跟 其 他 的 研究 和 分 析 领域 


一 样 ， 在 数据 规整 化 方面 所 花费 的 精力 常常 会 比 解决 核心 建 模 和 研究 问题 所 花费 的 要 多 
得 多 。 就 是 因为 找 不 到 合适 的 数据 处 理工 具 ， 所 以 我 才 在 2008 年 开始 创立 pandas 的 。 


在 本 章 的 示例 中 ， 我 将 使 用 术语 “截面 ” (cross-section) 来 表示 某 个 时 间 点 的 数据 。 例 
如 ， 标 准 普尔 500 指 数 中 所 有 成 分 股 在 特定 日 期 的 收盘 价 就 形成 了 一 个 截面 。 多 个 数据 
项 【例如 价格 和 成 交 量 ) 在 多 个 时 间 点 的 截面 数据 就 构成 了 一 个 面板 (panel) 。 面 板 数 
据 既 可 以 被 表示 为 层次 化 索引 的 DataFrame， 也 可 以 被 表示 为 三 维 的 Panel pandas 对 象 。 


数据 规整 化 方面 的 话题 


前 面 几 章 中 陆 陆续 续 介绍 过 一 些 不 错 的 数据 规整 化 工具 。 这 里 ， 我 将 着 重 介绍 一 些 跟 金 
融 问 题 域 有 关 的 话题 。 


时 间 序 列 以 及 截面 对 齐 
在 处 理 金融 数据 时 ， 最 费 神 的 一 个 问题 就 是 所 谓 的 “数据 对 齐 ” (data alignment) 问 
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题 。 两 个 相关 的 时 间 序列 的 索引 可 能 没有 很 好 的 对 齐 ， 或 两 个 DataFrame 对 象 可 能 含有 
不 匹配 的 列 或 行 。MATLAB、R 以 及 其 他 垂 阵 编程 语言 的 用 户 常常 需要 花费 大 量 的 精力 
将 数据 规整 化 为 完全 对 齐 的 形式 。 以 我 的 经 验 来 看 ， 手 工 处 理 数 据 对 齐 问题 是 一 件 令 人 
非常 邦 间 的 工作 ， 而 验证 数据 是 否 对 齐 则 还 要 更 郁闷 一 些 。 不 仅 如 此 ， 合 并 未 对 齐 的 数 
据 还 很 有 可 能 带 来 各 种 bug。 
pandas 可 以 在 算术 运算 中 自动 对 齐 数据 。 在 实际 工作 当中 ， 这 不 仅 能 为 你 带 来 极 大 的 自 
由 度 ， 而 且 还 能 提高 你 的 工作 效率 。 来 看 下 面 这 两 个 DataFrame， 它 们 分 别 含有 股票 价 
格 和 成 交 量 的 时 间 序 列 证 让; 


In [16]: prices 


Out[16]: 


2011-09-06 
2011-09-07 
2011-09-08 
2011-09-09 
2011-09-12 
2011-09-13 
2011-09-14 


AAPL 
379.74 
383.93 
384.14 
377.48 
379.94 
384.62 
389.30 


In [17]: volume 


out[17]: 


2011-09-06 
2011-09-07 
2011-09-08 
2011-09-09 
2011-09-12 


AAPL 
18173500 
12492000 
14839800 
20171900 
16697300 


IN] 
64.64 
65.43 
64.95 
63.64 
63.59 
63.61 
63.73 


SPX 
1165.24 
1198.62 
1185.90 
1154.23 
1162.27 
1172.87 
1188.68 


JN] 


XON 
71.15 
73.65 
72.82 
71.01 
71.84 
71.65 
72.64 


XOM 


15848300 25416300 
10759700 23108400 
15551500 22434800 
17008200 27969100 
13448200 26205800 


假设 你 想 要 用 所 有 有 效 数据 计算 一 个 成 交 量 加 权 平均 价格 (为 了 简 音 起见， 假设 成 交 量 
数据 是 价格 数据 的 子 集 ) 。 由 于 pandas 会 在 算术 运算 过 程 中 自动 将 数据 对 齐 ， 并 在 sum 这 
样 的 函数 中 排除 缺失 数据 ， 所 以 我 们 只 需 编写 下 面 这 条 简洁 的 表达 式 即 可 : 


In [18]: prices * volume 


Out[18]: 


2011-09-06 
2011-09-07 
2011-09-08 





In [19]: wap = (prices * volume).sum() / volume.sum() 


AAPL 


69012048: 
47960535 
57005607 
76144888: 
63439721 


JN] 


90 1024434112 


60 


704007171 


72 1010069925 
12 1082401848 


62 


NaN 
NaN 


855171038 


SPX 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


XOM 
1808369745 
1701933660 
1633702136 
1986085791 
1882624672 

NaN 

NaN 


译注 1: 此 处 代码 不 完整 ， 需 要 加 载 ch11 的 两 个 csy 文 件 ， 然 后 稍 作 处 理 即 可 得 到 这 里 所 需 的 素材 。 
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由 于 SPX 在 volume 中 找 不 到 ， 所 以 你 随时 可 以 显 式 地 将 其 丢弃 。 如 果 希 望 手工 进行 对 齐 ， 
可 以 使 用 DataFrame 的 align 方 法 ， 它 返回 的 是 一 个 元 组 ， 含 有 两 个 对 象 的 重 索 引 版 本 : 


另 一 个 不 可 或 缺 的 功能 是 ， 通 过 一 组 索引 可 能 不 同 的 Series 构 建 一 个 DataFrame。 


In [20]: vwap 


out[20]: 

AAPL 。 380.655181 
IN] 64.394769 
SPX NaN 
XOM 72.024288 


In [22]: prices.align(volune, 
Out[22]: 


In [21]: vwap.dropna() 


Out[21]: 

AAPL 380.655181 
IN] 64.394769 
XoM 72.024288 


join='inner') 


( AAPL JN] Xom 
2011-09-06 379.74 64.64 71.15 
2011-09-07 383.93 65.43 73.65 
2011-09-08 384.14 64.95 72.82 
2011-09-09 377.48 63.64 71.01 
2011-09-12 379.94 63.59 71.84, 

AAPL IN XoM 
2011-09-06 18173500 15848300 25416300 
2011-09-07 12492000 10759700 23108400 
2011-09-08 14839800 15551500 22434800 
2011-09-09 20171900 17008200 27969100 
2011-09-12 16697300 13448200 26205800) 


In [23]: s1 - Series(range(3), 
In [24]: s2 = Series(range(4), 
In [25]: s3 = Series(range(3), 


In [26]: DataFrame({'one’: s1, 


Out[26]: 

one three two 
大和 1 NaN 
b 1 NN 1 
€ 2 2 2 
d NaN NaN 0 
e NaN NaN 3 
f NaN 0 NaN 


index=['a’, 'b', 'c']) 
index=['d', 'b', 'c', 'e']) 
index=["f', 'a’, 'c']) 


‘two': s2, 'three’: s3}) 


跟前 面 一 样 ， 这 里 也 可 以 显 式 定义 结果 的 索引 (丢弃 其 余 的 数据 ) : 


In [27]: pataFrame({'one': s1, 


“two': s2, 'three': 53}，index=list("face')) 





Out[27]: 
one three two 
f NaN 0 NaN 
a 0 1 NaN 
C 2 2 对 
e NaN NaN 3 
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频率 不 同 的 时 间 序 列 的 运算 

经 济 学 时 间 序 列 常 常 有 着 按 年 、 季 、 月 、 日 计算 的 或 其 他 更 特殊 的 频率 。 有 些 完全 就 是 
不 规则 的 ， 比 如 说 ， 和 登 利 预测 调整 随时 都 可 能 会 发 生 。 频 率 转换 和 重 对 齐 的 两 大 主要 工 
具 是 resample 和 reindex 方 法 。resample 用 于 将 数据 转换 到 固定 频率 ， 而 reindex 则 用 于 
使 数据 符合 一 个 新 索引 。 它 们 都 支持 插值 (如 前 向 填充 ) 逻辑 。 


来 看 一 个 简单 的 周 型 时 间 序 列 : 


In [28]: ts1 = Series(np.random.randn(3), 
gE index=pd.date_range('2012-6-13', periods=3, freq="W-WED')) 


In [29]: tsl 

Out[29]: 

2012-06-13 -1.124801 
2012-06-20 。 0.469004 
2012-06-27 -0.117439 
Freq: W-WED 


如 果 将 其 重 采样 到 工作 日 (星期 一 到 星期 五 ) 频率 ， 则 那些 没有 数据 的 日 子 就 会 出 现 一 
个 “空洞 


In [30]: ts1.resample('B') 


Out[30]: 

2012-06-13 -1.124801 
2012-06-14 NaN 
2012-06-15 NaN 
2012-06-18 NaN 
2012-06-19 NaN 
2012-06-20 。 0.469004 
2012-06-21 NaN 
2012-06-22 NaN 
2012-06-25 NaN 
2012-06-26 NaN 
2012-06-27 -0.117439 
Freq: B 


当然 ， 只 需 将 位 11_method 设 置 为 'ffil1' 即 可 用 前 面 的 值 填充 这 些 空白 。 处 理 较 低频 率 的 
数据 时 常常 这 么 干 ， 因 为 最 终结 果 中 各 时 间 点 都 有 一 个 最 新 的 有 效 值 : 


In [31]: tsi.resample('B', fill_method="ffill') 
Out[31]: 

2012-06-13 -1.124801 

2012-06-14 
2012-06-15 
2012-06-18 
2012-06-19 
2012-06-20 0.469004 
2012-06-21 0.469004 
2012-06-22 0.469004 
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2012-06-25 。 0.469004 
2012-06-26 0.469004 
2012-06-27 -0.117439 
Freq: B 


在 实际 工作 当中 ， 将 较 低 频率 的 数据 升 采样 到 较 高 的 规整 频率 是 一 种 不 错 的 解决 方案 ， 
但 是 对 于 更 一 般 化 的 不 规整 时 间 序 列 可 能 就 不 太 合 适 了 。 看 看 下 面 这 个 不 规整 样本 的 时 
间 序 列 (各 时 间 点 更 一 般 化 ) : 


In [32]: dates = pd.DatetimeIndex(['2012-6-12', '2012-6-17', '2012-6-18", 
"2012-6-21', '2012-6-22', '2012-6-29']) 


In [33]: ts2 = Series(np.random.randn(6), index=dates) 


In [34]: ts2 

Out[34]: 

2012-06-12 -0.449429 
2012-06-17 0.459648 
2012-06-18 -0.172531 
2012-06-21 0.835938 
2012-06-22 -0.594779 
2012-06-29 。 0.027197 


如 果 要 将 t sl 中 “最 当前 ”的 值 ( 即 前 向 填充 ) 加 到 ts2 上 。 一 个 办 法 是 将 两 者 重 采样 为 
规整 频率 后 再 相 加 ， 但 是 如 果 想 维持 ts2 中 的 日 期 索引 ， 则 reindex 会 是 一 种 更 好 的 解决 
方案 : 


In [35]: tsl.reindex(ts2.index，method='ffll') 
Out[35]: 

2012-06-12 NaN 

2012-06-17 -1.124801 

2012-06-18 -1.124801 

2012-06-21 0.469004 

2012-06-22 0.469004 

2012-06-29 -0.117439 


In [36]: ts2 + ts1.reindex(ts2.index, method="ffill’) 
Out[36]: 

2012-06-12 NaN 

2012-06-17 -0.665153 

2012-06-18 -1.297332 

2012-06-21 。 1.304942 

2012-06-22 -0.125775 

2012-06-29 。 -0.090242 


使 用 Period 


Period (表示 时 间 区 间 ) 提供 了 另 一 种 处 理 不 同 频率 时 间 序 列 的 办 法 ， 尤 其 是 那些 有 着 
特殊 规范 的 以 年 或 季度 为 频率 的 金融 或 经 济 序列 。 比 如 说 ， 一 个 公司 可 能 会 发 布 其 以 6 
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月 结尾 的 财 年 的 每 季度 一 利 报告 ， 即 频率 为 0-]UN。 来 看 两 个 有 关 GDP 和 通货 膨胀 的 宏 
观 经 济 时 间 序 列 : 


In EE gdp = Series([1.78, 1.94, 2.08, 2.01, 2.15, 2.31, 2.46], 
index=pd.period_range('1984Q02', periods=7, freq="Q-SEP')) 








In [38]: infl = Series([0.025, 0.045, 0.037, 0.04], 
index=pd.period_range('1982', periods=4, freq='A-DEC')) 

In [39]: gdp In [40]: infl 

out[39] : Out[40]: 

198402 1.78 1982 0.025 

198403 1.94 1983 0.045 

198404 2.08 1984 0.037 

198501 2.01 1985 0.040 

198502 2.15 Freq: A-DEC 


198503 2.31 
198504 2.46 
Freq: Q-SEP 


跟 Timestamp 的 时 间 序 列 不 同 ， 由 Period 索 引 的 两 个 不 同 频率 的 时 间 序列 之 间 的 运算 必须 
进行 显 式 转换 。 在 本 例 中 ， 假 设 已 知 infl 值 是 在 每 年 年 末 观 测 的 ， 于 是 我 们 就 可 以 将 其 转 
换 到 Q-SEP 以 得 到 该 频率 下 的 正确 时 期 : 


In [41]: inf_q = infl.asfreq('Q-SEP', how='end') 


In [42]: inf_q 
Out[42]: 

1983Q1 。 0.025 
198401 。 0.045 
198501 。 0.037 
198601 0.040 
Freq: Q-SEP 


然后 这 个 时 间 序 列 就 可 以 被 重 索 引 了 (使 用 前 向 填充 以 匹配 gdp) : 


In [43]: infl_q.reindex(gdp.index，method='ffl1') 
Out[43]: 

198402 0.045 

198403 0.045 

198404 0.045 

198501 0.037 

198502 -0.037 

198503 0.037 

198504 0.037 

Freq: Q-SEP 


时 间 和 “最 当前 ”数据 选取 
假设 你 有 一 个 很 长 的 盘 中 市 场 数据 时 间 序列 ， 现 在 希望 抽取 其 中 每 天 特定 时 间 的 价格 数 
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据 。 如 果 数 据 不 规整 (观测 值 没有 精确 地 落 在 期 望 的 时 间 点 上 ) ， 该 怎么 办 ? 在 实际 工 
作 当 中 ， 如 果 不 够 小 心 仔细 的 话 ， 很 容易 导致 错误 的 数据 规整 化 。 看 看 下 面 这 个 例子 : 


# 生成 一 个 交易 日 内 的 日 期 范围 和 时 间 序列 评注 ? 
In [44]: rng = pd.date_range('2012-06-01 09:30', '2012-06-01 15:59', freq="T') 


# 生成 5 天 的 时 间 点 (9:30~15:59 之 间 的 值 ) 
In [45]: rng = rng.append([rng + pd.offsets.BDay(i) for i in range(1, 4)]) 


In [46]: ts = Series(np.arange(len(rng), dtype=float), index=rng) 


In [47]: ts 
Out[47]: 

2012-06-01 
2012-06-01 
2012-06-01 
2012-06-01 


wv»ro 


2012-06-06 
2012-06-06 1557 
2012-06-06 1558 
2012-06-06 15:59:00 1559 
Length: 1560 


1556 





利用 Python 的 datetime.time 对 象 进行 索引 即 可 抽取 出 这 些 时 间 点 上 的 值 : 
In [48]: from datetime import time 


In [49]: ts[time(10, 0)] 


Out[49]: 
2012-06-01 10:00:00 30 
:00: 420 
810 





2012-06-06 10:00:00 1200 


实际 上 ， 该 操作 用 到 了 实例 方法 at_time (各 时 间 序 列 以 及 类 似 的 DataFrame 对 象 都 
有 ) : 


In [50]: ts.at_time(time(10，0)) 


Out[50]: 

2012-06-01 10:00:00 30 
2012-06-04 10; 420 
2012-06-05 10: 810 





2012-06-06 10:00:00 。 1200 
还 有 一 个 between_time 方 法 ， 它 用 于 选取 两 个 Time 对 象 之 间 的 值 : 
In [51]: ts.between_time(time(10，0)，time(10，1)) 


Out[51]: 


译注 2: 这 里 生成 的 只 是 索引 ， 没 有 时 间 序 列 。 
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2012-06-01 10: 30 
2012-06-01 1 31 
2012-06-04 10: 420 
2012-06-04 10: 421 
2012-06-05 10: 810 
2012-06-05 10: 811 


2012-06-06 10:00:00 1200 
2012-06-06 10:01:00 1201 


正如 之 前 提 到 的 那样 ， 可 能 刚好 就 没有 任何 数据 落 在 某 个 具体 的 时 间 上 (比如 上 午 10 
点 ) 。 这 时 ， 你 可 能 会 希望 得 到 上 午 10 点 之 前 最 后 出 现 的 那个 值 : 


# 将 该 时 间 序 列 的 大 部 分 内 容 随机 设置 为 NA 
In [53]: indexer = np.sort(np.random.permutation(len(ts))[700:]) 


In [54]: irr ts = ts.copy() 
In [55]: irr ts[indexer] = np.nan 
In [56]: irr ts['2012-06-01 09:50':"2012-06-01 10:00'] 


Out[56]: 
2012-06-01 09: 






2012-06-01 10: 


如 果 将 一 组 Timestamp 传 人 asof 方 法 ， 就 能 得 到 这 些 时 间 点 处 (或 其 之 前 最 近 ) 的 有 效 
值 ( 非 NA) 。 例 如 ， 我 们 构造 一 个 日 期 范围 (每 天 上 午 10 点 ) ， 然 后 将 其 传人 asof : 


In [57]: selection = pd.date range('2012-06-01 10:00', periods=4, freq='B') 


In [58]: irr ts.asof(selection) 


Out[58]: 
2012-06-01 10:00:00 29 
2012-06-04 10:00:00 419 


2012-06-05 10:00:00 810 
2012-06-06 10:00:00 1198 
Freq: B 


拼接 多 个 数据 源 


在 第 7 章 中 ， 我 介绍 了 一 些 合并 两 个 相关 数据 集 的 办 法 。 在 金融 或 经 济 领 域 中 ， 还 有 另 
外 几 个 经 常 出 现 的 情况 : 
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。 ”在 一 个 特定 的 时 间 点 上 ， 从 一 个 数据 源 切 换 到 另 一 个 数据 源 。 
。 ”用 另 一 个 时 间 序 列 对 当前 时 间 序 列 中 的 缺失 值 “ 打 补丁 ” 
。 “将 数据 中 的 符号 (国家 、 资 产 代码 等 ) 替换 为 实际 数据 。 


对 于 第 一 种 情况 ， 在 特定 时 刻 从 一 个 时 间 序 列 切换 到 另 一 个 ， 其 实 就 是 用 pandas. 
concat 将 两 个 TimeSeries 或 DataFrame 对 象 合并 到 一 起 : 
In [so]: datal = DataFrane(np.ones((6, 3), dtype=foat), 


columns=["a’, ‘b’, ‘c'], 
index=pd.date_range('6/12/2012', periods=6)) 





In fio]: data2 = DataFrane(np.ones((6, 3), dtype=float) * 2， 
columns=['a’, 'b’, 'c'], 
index=pd.date_range('6/13/2012', periods=6)) 





In [61]: spliced = pd.concat([data1.ix[:'2012-06-14'], data2.ix['2012-06-15':]]) 


In [62]: spliced 
Out[62]: 


2012-06-12 
2012-06-13 
2012-06-14 
2012-06-15 
2012-06-16 
2012-06-17 
2012-06-18 


NNNNPPPS 
NNNNPPPT 
unoonnnn 


再 看 另 一 个 简单 的 例子 ， 假 设 datal 缺 失 了 data2 中 存在 的 某 个 时 间 序列 ， 


In [113]: data2 = DataFrame(np. ones((6， ,4)， dtype=float) 
: columns=['a’, 'b’, 'c’, 'd’], 
index=pd.date_range('6/13/2012', periods=6)) 





In [64]: spliced = pd.concat([datai.ix[:'2012-06-14'], data2.ix['2012-06-15':]]) 


In [65]: spliced 


Out[65]: 

abc d 
2012-06-12 1 1 1 NaN 
2012-06-13 1 1 1NaN 
2012-06-14 1 1 1NaN 
2012-06-15 2 2 2 2 
2012-06-16 2 2 2 2 
2012-06-17 2 2 2 2 
2012-06-18 2 2 2 2 


combine_first 可 以 引入 合并 点 之 前 的 数据 ， 这 样 也 就 扩展 了 'd' 项 的 历史 : 


In [66]: spliced filled = spliced.combine_first(data2) 
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In [67]: spliced flled 
out[67]: 

2012-06-12 Nal 
2012-06-13 
2012-06-14 
2012-06-15 
2012-06-16 
2012-06-17 
2012-06-18 


NNNNPpPPO 
NNNNPpPPGT 
NNNNPPPN 

NNNNNNZA 


由 于 data2 没 有 关于 2012-06-12 的 数据 ， 所 以 也 就 没有 值 被 填充 到 那 一 天 。 


DataFrame 也 有 一 个 类 似 的 方法 update， 它 可 以 实现 就 地 更 新 。 如 果 只 想 填充 空洞 ， 则 必 
须 传人 overwrite=False 才 行 : 


In [68]: spliced.update(data2, overwrite=False) 


In [69]: spliced 
Out[69]: 


2012-06-12 
2012-06-13 
2012-06-14 
2012-06-15 
2012-06-16 
2012-06-17 
2012-06-18 


上 面 所 讲 的 这 些 技术 都 可 实现 将 数据 中 的 符号 替换 为 实际 数据 ， 但 有 时 利用 DataFrame 
的 索引 机 制 直接 对 列 进行 设置 会 更 简单 一 些 : 


NNNNPPPO 
NNNNPPPO 
NNNNpPPPN 

NNNNNNo 


In [70]: cp_spliced = spliced.copy() 
In [71]: cp_spliced[['a’, 'c']] = datai[['a’, 'c']] 


In [72]: cp_spliced 
Out[72]: 


a 
2012-06-12 1 
2012-06-13 1 
2012-06-14 1 
2012-06-15 1 
2012-06-16 1 
2012-06-17 1 
2012-06-18 NaN 


RNPppc 
兰 PpPPnpnn 
wmwuwwnw 兰 = 





收益 指数 和 累计 收益 
在 金融 领域 中 ， 收 益 (return) 通常 指 的 是 某 资产 价格 的 百分比 变化 。 我 们 来 看 看 2011 
年 到 2012 年 间 苹 果 公司 的 股票 价格 数据 主 让 3， 


In [73]: import pandas.io.data as web 
In [74]: price = web.get_data_ yahoo('AAPL', '2011-01-01')['Adj Close’] 


In [75]: price[-5:] 

Out[75]: 

Date 

2012-07-23 。 603.83 

2012-07-24 600.92 

2012-07-25 。 574.97 

2012-07-26 。 574.88 

2012-07-27 。 585.16 

Name: Adj Close 
对 于 蕴 果 公司 的 股票 (没有 股息 “由 *) ， 计 算 两 个 时 间 点 之 间 的 黑 计 百分比 回报 只 需 计 
算 价格 的 百分比 变化 即 可 : 

In [76]: price['2011-10-03'] / price[’2011-3-01'"] - 1 

Out[76]: 0.072399874037388123 
对 于 其 他 那些 派发 股息 的 股票 ， 要 计算 你 在 某 只 股票 上 赚 了 多 少 钱 就 比较 复杂 了 。 不 
过 ， 这 里 所 使 用 的 已 调整 收盘 价 已 经 对 拆 分 和 股息 做 出 了 调整 。 不 管 什么 样 的 情况 ， 通 
常 都 会 先 算出 一 个 收益 指数 ， 它 是 一 个 表示 单位 投资 (比如 1 美元 ) 收益 的 时 间 序 列 。 
从 收益 指数 中 可 以 得 出 许多 假设 。 例 如 ， 人 们 可 以 决定 是 否 进行 利润 再 投资 。 对 于 苹果 
公司 的 情况 ， 我 们 可 以 利用 cumprod 计 算出 一 个 简单 的 收益 指数 : 


In [77]: returns = price.pct_change() 
In [78]: ret_index = (1 + returns).cumprod() 
In [79]: ret_index[0] = 1 # 将 第 一 个 值 设 置 为 1 


In [80]: ret_index 
out[8o] : 

Date 

2011-01-03 1.000000 
2011-01-04 1.005219 
2011-01-05 1.013442 


译注 3: 直接 使 用 这 段 代码 获取 的 数据 会 多 很 多 ， 固 为 没有 截止 日 期 ， 建 议 使 用 price = web.get_ 
data_yahoo ('AAPL'，'2011-01-01'，'2012-07-27') ['Adj Close']。 此 外 ， 由 于 这 里 获 
取 的 是 Adj Close， 所 以 数据 本 身 也 会 有 一 些 不 同 。 


译注 4: 现在 已 经 派 过 股息 了 。 
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2011-01-06 


2012-07-24 
2012-07-25 
2012-07-26 
2012-07-27 


Length: 396 


1.012623 


1.823346 
1.744607 
1.744334 
1.775526 


得 到 收益 指数 之 后 ， 计 算 指定 时 期 内 的 累计 收益 就 很 简单 了 : 


In [81]: m returns = ret_ index.resample('BM', how="last').pct_change() 


In [82]: m returns['2012'] 


Out[82]: 
Date 
2012-01-31 
2012-02-29 
2012-03-30 
2012-04-30 
2012-05-31 
2012-06-29 
2012-07-31 
Freq: BM 


0.127111 
0.188311 
0.105284 
-0.025969 
-0.010702 
0.010853 
0.001986 


当然 了 ， 就 这 个 简单 的 例子 而 言 (没有 股息 也 没有 其 他 需要 考虑 的 调整 ) ， 上 面 的 结果 
也 能 通过 重 采样 聚合 (这 里 聚合 为 时 期 ) 从 日 百分比 变化 中 计算 得 出 : 


In [83]: m_rets = (1 + returns).resample('M', how='prod’, kind='period') - 1 


In [84]: m_rets['2012'] 


Out[84]: 
Date 

2012-01 
2012-02 
2012-03 
2012-04 
2012-05 
2012-06 
2012-07 
Freq: M 


0.127111 
0.188311 
0.105284 

-0.025969 

-0.010702 
0.010853 
0.001986 


如 果 知道 了 股息 的 派发 日 和 支付 率 ， 就 可 以 将 它们 计 入 到 每 日 总 收益 中 ， 如 下 所 示 : 


returns[dividend_dates] += dividend pcts 


分 组 变换 和 分 析 


在 第 9 章 中 ， 我 们 学 习 了 分 组 统计 计算 的 基础 知识 ， 还 学 习 了 如 何 对 数据 集 的 分 组 应 用 
自 定义 的 变换 函数 。 
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下 面 以 一 组 假想 的 股票 投资 组 合 为 例 。 首 先 我 随机 生成 1000 个 股票 代码 : 


import random; random.seed(0) 
import string 


N= 1000 
def rands(n): 

choices = string.ascii uppercase 

return ''.join([random.choice(choices) for _ in xrange(n)]) 
tickers = np.array([rands(5) for _ in xrange(N)]) 


然后 创建 一 个 含有 3 列 的 DataFrame 来 承载 这 些 假想 数据 ， 不 过 只 选择 部 分 股票 组 成 该 投 
资 组 合 : 
NM = 500 
df = DataFrame({'Momentum' : np.random.randn(M) / 200 + 0.03， 
"Value' : np.random.randn(M) / 200 + 0.08, 


"ShortInterest' : np.random.randn(M) / 200 - 0.02}, 
index=tickers[:M]) 


接 下 来 ， 我 们 为 这 些 股 票 随机 创建 一 个 行业 分 类 。 为 了 简单 起 见 ， 我 只 选用 了 两 个 行 
业 ， 并 将 映射 关系 保存 在 Series 中 : 

ind_names = np.array(['FINANCIAL', 'TECH']) 

sampler = np.random.randint(0, len(ind_names), N) 


industries = Series(ind_names[sampler], index=tickers, 
name='industry') 


现在 ， 我 们 就 可 以 根据 行业 分 类 进行 分 组 并 执行 分 组 聚合 和 变换 了 : 


In [90]: by_industry = df.groupby(industries) 





In [91]: by_industry.mean() 


Out[91]: 

Momentum ShortInterest Value 
industry 
FINANCIAL 0.029485 -0.020739 0.079929 
TECH 0.030407 -0.019609 0.080113 


In [92]: by_industry.describe() 








Out[92]: 
Momentum ShortInterest Value 
industry 
FINANCIAL Count 246.000000246.000000 246.000000 
mean 0.029485 -0.020739 0.079929 
Std 0.004802 0.004986 0.004548 
min 0.017210 0.067025 
25% 0.026263 0.076638 
50% 0.029261 0.079804 
75% 0.032806 -0.017345 0.082718 
maX 0.045884 -0.006322 0.093334 
TECH count 254.000000 254.000000 254.000000 
mean 0.030407 -0.019609 0.080113 
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std 0.005303 0.005074 0.004886 


min 0.016778 -0.032682 0.065253 
25% 0.026456 -0.022779 0.076737 
50% 0.030650 -0.019829 0.080296 
75% 0.033602 -0.016923 0.083353 
maX 0.049638 -0.003698 0.093081 


要 对 这 些 按 行业 分 组 的 投资 组 合 进行 各 种 变换 ， 我 们 可 以 编写 自 定义 的 变换 函数 。 例 如 


行业 内 标准 化 处 理 ， 它 广泛 用 于 股票 资产 投资 组 合 的 构建 过 程 : 
# 行业 内 标准 化 处 理 
def zscore(group): 
return (group - group.mean()) / group.std() 
df_stand = by_industry.apply(zscore) 
这 样 处 理 之 后 ， 各 行业 的 平均 值 为 0， 标 准 差 为 1 ; 


In [94]: df_stand.groupby(industries).agg(['mean’, 'std']) 
Out[94]: 


Momentum ShortInterest Value 
mean std mean std mean std 
industry 
FINANCIAL 0 1 0 1 0 1 
TECH 主人 条 -0 1 -0 1 


内 置 变换 函数 (如 rank) 的 用 法 会 更 简洁 一 些 : 


# 行业 内 降序 排名 
In [95]: ind_rank = by_industry.rank(ascending-False) 


In [96]: ind_rank.groupby(industries).agg(['min'，'"max']) 


Out[96]: 
Momentum ShortInterest Value 
min max min max min max 
industry 
FINANCIAL 1 246 1 246 1 246 
TECH 1 254 1 254 1 254 


在 股票 投资 组 合 的 定量 分 析 中 ，“ 排 名 和 标准 化 ”是 一 种 很 常见 的 变换 运算 组 合 。 通 过 


将 rank 和 zscore 链 接 在 一 起 即 可 完成 整个 变换 过 程 ， 就 像 下 面 这 样 : 


# 行业 内 排名 和 标准 化 

In [97]: by_industry.apply(lambda x: zscore(x.rank())) 
Out[97]: 

«<class ‘pandas.core. frame.DataFrame'> 

Index: 500 entries, VTKGN to PTDQE 

Data columns: 


Momentum 500 non-null values 
ShortInterest 500 non-null values 
Value 500 non-null values 


dtypes: float64(3) 





金融 和 经 济 数 据 应 用 


357 


分 组 因子 暴露 

因子 分 析 (factor analysis) 是 投资 组 合 定量 管理 中 的 一 种 技术 。 投 资 组 合 的 持 有 量 和 性 
能 (收益 与 损失 ) 可 以 被 分 解 为 一 个 或 多 个 表示 投资 组 合 权重 的 因子 (风险 因子 就 是 其 
中 之 一 ) 。 例 如 ， 某 只 股票 的 价格 与 某 个 基准 (比如 标准 普尔 500 指 数 ) 的 协 动 性 被 称 
作 其 贝塔 风险 系数 (beta， 一 种 常见 的 风险 因子 ) 。 下 面 以 一 个 人 为 构成 的 投资 组 合 为 
例 进行 讲解 ， 它 由 三 个 随机 生成 的 因子 (通常 称 为 因子 载荷 ) 和 一 些 权重 构成 


from numpy.random import rand 
facl，fac2，fac3 = np.random.rand(3, 1000) 


ticker_subset = tickers.take(np.random.permutation(N)[:1000]) 


# 因子 加 权 和 以 及 噪声 
port = Series(0.7 * facl - 1.2 * fac2 + 0.3 * fac3 + rand(1000), 
index=ticker_subset) 
factors = DataFrame({'f1': faci, 'f2': fac2, 'f3': fac3}， 
index=ticker_subset) 


各 因子 与 投资 组 合 之 间 的 矢量 相关 性 可 能 说 明 不 了 什么 问题 : 


In [99]: factors.corrwith(port) 
Out[99]: 

f1 0.402377 

f2 -0.680980 

f3 0.168083 


计算 因子 暴露 的 标准 方式 是 最 小 二 乘 回归 。 使 用 pandas .ols (将 factors 作 为 解释 变量 ) 
即 可 计算 出 整个 投资 组 合 的 暴露 : 


In [100]: pd.ols(y=port, x=factors).beta 


Out[100]: 

f1 0.761789 
f2 -1.208760 
f3 0.289865 


intercept 0.484477 


不 难看 出 ， 由 于 没有 给 投资 组 合 添加 过 多 的 随机 噪声 ， 所 以 原始 的 因子 权重 基本 上 可 算 
是 恢复 出 来 了 。 还 可 以 通过 groupby 计 算 各 行业 的 暴露 量 。 为 了 达到 这 个 目的 ， 我 先 编 
写 了 一 个 函数 ， 如 下 所 示 : 


def beta_exposure(chunk, factors=None): 
return pd.ols(y=chunk, x=factors).beta 


然后 根据 行业 进行 分 组 ， 并 应 用 该 函数 ， 传 人 因子 载荷 的 DataFrame: 
In [102]: by_ind = port.groupby(industries) 


In [103]: exposures = by_ind.apply(beta_exposure, factors=factors) 
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In [104]: exposures.unstack() 


out[104] : 

f1 f2 f3 intercept 
industry 
FINANCIAL 0.790329 -1.182970 0.275624 0.455569 
TECH 0.740857 -1.232882 0.303811 0.508188 


十 分 位 和 四 分 位 分 析 
基于 样本 分 位 数 的 分 析 是 金融 分 析 师 们 的 另 一 个 重要 工具 。 例 如 ， 股 票 投资 组 合 的 性 
能 可 以 根据 各 股 的 市 一 率 被 划分 和 人 四 分 位 (四 个 大 小 相等 的 块 ) 。 通 过 pandas.qcut 和 
groupby 可 以 非常 轻松 地 实现 分 位 数 分 析 。 
在 下 面 这 个 例子 中 ， 我 们 利用 跟随 策略 或 动量 交易 策略 通过 SPY 交 易 所 交易 基金 买卖 标 
准 普尔 500 指 数 。 你 可 以 从 Yahoo! Finance 下 载 价格 历史 : 

In [105]: import pandas.io.data as web 

In [106]: data = web.get_data_yahoo('SPY'，'2006-01-01') 译 注 5 

In [107]: data 

Out[107]: 

<class 'pandas.core.frame.DataFrame’> 


DatetimeIndex: 1655 entries, 2006-01-03 00:00:00 to 2012-07-27 00:00:00 
Data columns: 


Open 1655 non-null values 
High 1655 non-null values 
Low 1655 non-null values 
Close 1655 non-null values 
Volune 1655 non-null values 


Adj Close 。 1655 non-null values 
dtypes: float64(5), int64(1) 


接 下 来 计算 日 收益 率 ， 并 编写 一 个 用 于 将 收益 率 变换 为 趋势 信号 (通过 滞后 移动 形成 ) 
的 函数 : 


px = data['Adj Close'] 
returns = px.pct_change() 


def to_index(rets): 
index = (1 + rets).cumprod() 
first_loc = max(index.notnull().argnax() - 1, 0) 
index.values[first_loc] = 1 
Teturn index 


def trend_signal(rets, lookback, 1ag): 


signal = pd.rolling sun(rets, lookback, min_periods=lookback - 5) 
return signal.shift(1ag) 


译注 5; 跟前 面 说 的 一 样 ， 这 里 最 好 还 是 加 上 截止 日 期 ， 否 则 数据 会 比 书 上 介绍 的 多 。 
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通过 该 函数 ， 我 们 可 以 (单纯 地 ) 创建 和 测试 一 种 根据 每 周 五 动量 信号 进行 交易 的 交易 
策略 。 


In [109]: signal = trend_signal(returns, 100, 3) 
In [110]: trade_ friday = signal.resample('W-FRI').resample('B', fill_method="ffill') 
In [111]: trade rets = trade friday.shift(1) * returns 

然后 将 该 策略 的 收益 率 转换 为 一 个 收益 指数 ， 并 绘制 一 张 图 表 (如 图 11-1 所 示 ) : 


In [112]: to_index(trade_rets).plot() 








l WA 








0.98| 








2007 2008 2009 2010 2011 2012 
Date 














图 11-1: SPY 动 量 策略 收益 指数 

假如 你 希望 将 该 策略 的 性 能 按 不 同 大 小 的 交易 期 波幅 进行 划分 。 年 度 标准 差 是 计算 波幅 

的 一 种 简单 办 法 ， 我 们 可 以 通过 计算 夏普 比率 来 观察 不 同 波动 机 制 下 的 风险 收益 率 ， 
vol = pd.rolling_std(returns, 250, min_periods=200) * np.sqrt(250) 


def sharpe(rets, ann=250): 
return rets.mean() / rets.std() * np.sqrt(ann) 


现在 ， 利 用 qcut 将 vol 划分 为 四 等 份 ， 并 用 sharpe 进 行 聚 合 : 


In [114]: trade_rets.groupby(pd.qcut(vol, 4)).agg(sharpe) 
Out[114]: 

[0.0955, 0.16] 0.490051 

(0.16, 0.188] 0.482788 
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(0.188，0.231] -0.731199 
(0.231, 0.457] 0.570500 


这 个 结果 说 明 ， 该 策略 在 波幅 最 高 时 性 能 最 好 。 


更 多 示例 应 用 


本 节 介 绍 一 些 其 他 的 例子 。 


信号 前 沿 分 析 
在 本 小 节 中 ， 我 将 介绍 一 种 简化 的 截面 动量 投资 组 合 ， 并 告诉 你 如 何 得 到 模型 参数 化 网 
格 。 首 先 ， 我 将 金融 和 技术 领域 中 的 几 只 股票 做 成 一 个 投资 组 合 ， 并 加 载 它们 的 历史 价 
格 数据 : 

names = ['AAPL', "G00G', "MSFT', ‘DELL'’, 'GS', MS’, "BAC', 'C'] 

def get_px(stock, start, end): 


return web.get_data_yahoo(stock, start, end)['Adj close'] 
px = DataFrame({n: get_px(n, '1/1/2009', '6/1/2012') for n in names}) 


我 们 可 以 轻松 绘制 每 只 股票 的 累计 收益 (如 图 11-2 所 示 ) : 
In [117]: px = px.asfreq('B').fillna(method="pad') 
In [118]: rets = px.pct_change() 


In [119]: ((1 + rets).cumprod() - 1).plot() 
对 于 投资 组 合 的 构建 ， 我 们 要 计算 特定 回顾 期 的 动量 ， 然 后 按 降序 排列 并 标准 化 : 


def calc_mom(price, lookback, 1ag): 
mom_ret = price.shift(1ag).pct_change(lookback) 
Tanks = mom ret.rank(axis=1, ascending=False) 
demeaned = ranks - ranks.mean(axis=1) 
return demeaned / demeaned.std(axis=1) 


利用 这 个 变换 函数 ， 我 们 再 编写 一 个 对 策略 进行 事后 检验 的 函数 ， 通 过 指定 回顾 期 和 持 
有 期 (买卖 之 间 的 日 数 ) 计算 投资 组 合 整体 的 夏普 比率 。 


compound = lambda x : (1 + x).prod() - 1 
daily_sr = lambda x: x.mean() / x.std() 


def strat_sr(prices, 1b, hold): 
# 计算 投资 组 合 权重 
freq = '%dB' % hold 
port = calc_mom(prices, 1b, 1ag=1) 
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daily_rets = prices.pct_change() 


# 计算 投资 组 合 收益 

port = port.shift(1).resanple(freq, how="first') 
Teturns = daily_rets.resample(freq, how=compound) 
port_rets = (port * returns).sum(axis=1) 


return daily_sr(port_rets) * np.sqrt(252 / hold) 





























图 11-2， 每 只 股票 的 累计 收益 


通过 价格 数据 以 及 一 对 参数 组 合 调用 该 函数 将 会 得 到 一 个 标量 值 : 


In [122]: strat_sr(px, 70, 30) 
Out[122]: 0.27421582756800583 


然后 对 参数 网 格 ( 即 多 对 参数 组 合 ) 应 用 strat_sr 函 数 ， 并 将 结果 保存 在 一 个 
defaultdict 中 ， 最 后 再 将 全 部 结果 放 进 一 个 DataFrame 中 : 


from collections import defaultdict 


lookbacks = range(20, 90, 5) 
holdings = range(20, 90, 5) 
d = defaultdict(dict) 
for lb in lookbacks: 

for hold in holdings: 

dd[lb][hold] = strat_sr(px, 1b, hold) 

ddf = DataFrame(dd) 
ddf.index.name = "Holding Period 
ddf.columns.name = 'Lookback Period" 
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为 了 便于 观察 ， 我 们 可 以 将 该 结果 图 形 化 。 下 面 这 个 函数 会 利用 matplotlib 生 成 一 张 带 有 
装饰 物 计生 5 的 热 图 (heatmap) : 


import matplotlib.pyplot as plt 


def heatmap(df, cmap=plt.cm.gray_I): 
fig = plt.figure() 
ax = fig.add_subplot(111) 
axim = ax.imshow(df.values, cmap=cmap, interpolation='nearest') 
ax. set_xlabel(df.columns.name) 
ax.set_xticks(np.arange(len(df.columns))) 
ax.set xticklabels(list(df.columns)) 
ax.set_ylabel(df.index.name) 
ax.set yticks(np.arange(len(df.index))) 
ax.set yticklabels(list(df.index)) 
plt.colorbar(axim) 





对 事后 检验 结果 调用 该 函数 ， 就 会 得 到 图 11-3: 


In [125]: heatmap(ddf) 
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图 11-3: 动量 策略 各 种 回顾 期 和 持 有 期 的 夏普 比率 热 图 ( 越 高 越 好 ) 


期 货 合约 转 仓 
期 货 是 一 种 无 所 不 在 的 衍生 品 合约 。 它 是 一 种 在 指定 日 期 交 收 指定 资产 (比如 石油 、 黄 
金 或 FTSE100 指 数 的 股份 ) 的 约定 。 在 实践 中 ， 由 于 期 货 合约 具有 限时 性 ， 对 (股票 、 


译注 6: “装饰 物 ” 就 是 区 





、 标 题 之 类 的 “配角 ”元 素 。 
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货币 、 商 品 、 债 券 以 及 其 他 资产 类 ) 期 货 合约 的 建 模 和 交易 是 很 复杂 的 。 例 如 ， 对 于 某 
种 期 货 (比如 银 或 铜 期 货 ) ， 在 给 定时 间 点 ， 可 能 有 多 个 到 期 时 间 不 同 的 合约 被 交易 。 
一 般 来 说 ， 下 一 个 期 满 的 期 货 合约 〈 即 近期 合约 ) 将 是 最 具 流动 性 的 【成 交 量 最 高 和 买 
卖 差价 最 低 ) 。 


通过 一 个 表示 一 亏 (始终 持 有 近期 合约 ) 的 连续 的 收益 指数 即 可 轻松 实现 建 模 和 预测 。 
从 一 份 到 期 合约 过 渡 到 下 一 期 (或 更 远 的 ) 合约 称 为 转 仓 。 通 过 单个 期 货 合约 数据 构建 
连续 序列 并 不 简单 ， 而 且 一 般 都 需要 深入 了 解 市 场 以 及 交易 方面 的 知识 才 行 。 例 如 ， 你 
该 何 时 以 及 如 何 快速 卖 出 到 期 合约 并 买 人 下 期 合约 ? 本 节 我 所 描述 的 就 是 这 样 的 一 个 过 
程 。 


首先 ， 我 用 SPY 交 易 所 交易 基金 的 部 分 价格 作为 标准 普尔 500 指 数 的 代理 ， 
In [127]: import pandas.io.data as web 


# 标准 普尔 500 指 数 的 近似 价格 
In [128]: px = web.get_data_yahoo('SPY')['Adj Close’] * 10 


In [129]: px 
Out[129]: 

Date 

2011-08-01 1261.0 
2011-08-02 ”1228.8 
2011-08-03 1235.5 


2012-07-25 1339.6 
2012-07-26 1361.7 
2012-07-27 1386.8 
Name: Adj Close, Length: 251 


现在 ， 稍 微 做 一 些 设置 。 我 在 一 个 Series 中 放 了 两 份 标准 普尔 500 指 数 期 货 合约 及 其 到 期 
日 期 : 

from datetime import datetime 

expiry = {'ESU2': datetime(2012, 9, 21), 


"ES72': datetime(2012, 12, 21)} 
expiry = Series(expiry).order() 


expiry 现 在 应 该 是 这 个 样子 的 : 


In [131]: expiry 

Out[131]: 

ESU2 2012-09-21 00:00:00 
ESZ2 2012-12-21 00:00:00 


然后 ， 我 用 Yahoo! Finance 的 价格 以 及 一 个 随机 漫步 和 一 些 噪 声 来 模拟 这 两 份 合约 未 来 
的 走势 





364 | 第 11 章 


np.random. seed(12347) 


N = 200 


walk = (np.random.randint(0，200，size=N) - 100) * 0.25 


perturb = (np.random.randint(0，20，size=N) - 10) * 0.25 
walk = walk.cumsum() 


Ing = pd.date_range(px.index[0], periods=len(px) + N, freq="B') 
near = np.concatenate([px.values, px.values[-1] + walk]) 
far = np.concatenate([px.values, px.values[-1] + walk + perturb]) 


prices = DataFrame({"ESU2': 


这 样 ，prices 就 有 了 关于 这 两 个 合约 的 时 间 序 列 : 


In [133]: prices.tail() 


Out[133]: 


2013-04-16 
2013-04-17 
2013-04-18 
2013-04-19 
2013-04-22 


ESU2 
1416.05 
1402.30 
1410.30 
1426.80 
1406.80 


ESZ2 
1417.80 
1404.55 
1412.05 
1426.05 
1404.55 


near, 'ESZ2': far}, index-rng) 


将 多 个 时 间 序 列 合并 为 单个 连续 序列 的 一 个 办 法 是 构造 一 个 加 权 和 矩阵 。 活 动 合约 的 权重 
应 该 设 为 1， 直 到 期 满 为 止 。 在 那个 时 候 ， 你 必须 决定 一 个 转 仓 约定 。 下 面 这 个 函数 可 
以 计算 一 个 加 权 和 矩阵 (权重 根据 到 期 前 的 期 数 减少 而 线性 衰减 ) : 


def get_roll weights(start, expiry, itens, roll_periods=5): 


# start 
# items : 


dates = pd.date_range(start，expiry[-1]，freq='B') 


: 用 于 计算 加 权 和 矩阵 的 第 一 天 
# expiry : 由 “合约 代码 -> 到 期 日 期 ”组 成 的 序列 
-组 合约 名 称 


weights = DataFrame(np.zeros((len(dates), len(items))), 


prev_date = weights.index[0] 


index=dates, columns=items) 


for 1, (item, ex_date) in enumerate(expiry.iteritems()): 


if i < len(expiry) - 1: 


weights.ix[prev_date:ex_date - pd.offsets.BDay(), item] = 1 
roll_rng = pd.date_range(end=ex_date - pd.offsets.BDay(), 


periods=roll_periods + 1, freq="B') 


decay_weights = np.linspace(0, 1, roll periods + 1) 
weights.ix[roll_rng, item] = 1 - decay weights 

weights.ix[roll_rng, expiry.index[i + 1]] = decay weights 
else: 


weights.ix[prev_date:, item] = 1 


prev_date = ex_date 
return weights 


快 到 ESU2 到 期 日 的 那 几 天 的 权重 如 下 所 示 : 
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In [135]: weights = get_roll weights('6/1/2012', expiry, prices.columns) 


In [136]: weights.ix['2012-09-12':"2012-09-21'] 


out[136] : 

ESU2 ESZ2 
2012-09-12 1.0 0.0 
2012-09-13 1.0 0.0 
2012-09-14 0.8 0.2 
2012-09-17 ”0.6 0.4 
2012-09-18 0.4 0.6 
2012-09-19 0.2 0.8 
2012-09-20 0.0 1.0 
2012-09-21 0.0 1.0 


最 后 ， 转 仓 期 货 收 益 就 是 合约 收益 的 加 权 和 : 


In [137]: rolled_returns = (prices.pct_change() * weights).sun(1) 


移动 相关 系数 与 线性 回归 
动态 模型 在 金融 建 模 工作 中 扮演 着 重要 的 角色 ， 因 为 它们 可 用 于 模拟 历史 时 期 中 的 交易 
决策 。 移 动 窗口 和 指数 加 权时 间 序列 函数 就 是 用 于 处 理 动 态 模型 的 工具 。 


相关 系数 是 观察 两 个 资产 时 间 序 列 的 变化 的 协 动 性 的 一 种 手段 。pandas 的 rolling_corr 函 
数 可 以 根据 两 个 收益 序列 计算 出 移动 窗口 相关 系数 。 首 先 ， 我 从 Yahoo! Finance 加 载 一 
些 价格 序列 ， 并 计算 每 日 收益 率 : 


aapl = web.get_data_yahoo('AAPL', '2000-01-01')["Adj Close'] 
msft = web.get_data_yahoo( "MSFT', ‘2000-01-01')['Adj close'] 


aapl_rets = aapl.pct_change() 
msft rets = msft.pct_change() 


然后 ， 我 计算 一 年 期 移动 相关 系数 并 绘制 图 表 (如 图 11-4 所 示 ) : 
In [140]: pd.rolling corr(aapl_rets, msft_rets, 250).plot() 


两 个 资产 之 间 的 相关 系数 存在 一 个 问题 ， 即 它 不 能 捕获 波动 性 差异 。 最 小 二 乘 回归 提供 
了 另 一 种 对 一 个 变量 与 一 个 或 多 个 其 他 预测 变量 之 间 动 态 关系 的 建 模 办 法 。 


In [142]: model = pd.ols(y=aapl_rets, x={'MSFT': msft_rets}, window=250) 


In [143]: model.beta 

Out[143]: 

<class ‘pandas.core.frame.DataFrame’> 

DatetimeIndex: 2913 entries, 2000-12-28 00:00:00 to 2012-07-27 00:00:00 
Data columns: 

MSFT 2913 non-null values 

intercept 2913 non-null values 
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dtypes: float64(2) 


In [144]: model.beta['MSFT'].plot() 
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图 11-5: 苹果 对 微软 一 年 期 beta (OLS 回 归 系数 ) 


pandas 的 o1s 函 数 实现 了 静态 和 动态 (扩展 或 移动 窗口 ) 的 最 小 二 乘 回归 。 有 关 统 计 
学 和 计量 经 济 学 的 复杂 模型 的 更 多 信息 ， 请 参考 statsmodels 项 目 (http://statsmodels. 


sourceforge.net) 。 
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NumPy 高 级 应 用 





ndarray 对 象 的 内 部 机 理 


NumpPy 的 ndarray 提 供 了 一 种 将 同 质数 据 块 (可 以 是 连续 或 跨越 下 过 的 ， 稍 后 将 详细 讲 
解 ) 解释 为 多 维 数组 对 象 的 方式 。 正 如 你 之 前 所 看 到 的 那样 ， 数 据 类 型 (dtype) 决定 了 
数据 的 解释 方式 ， 比 如 浮 点 数 、 整 数 、 布 尔 值 等 。 


ndarray 如 此 强大 的 部 分 原因 是 所 有 数组 对 象 都 是 数据 块 的 一 个 跨度 视图 (strided 
view) 。 你 可 能 想 知道 数组 视图 arr[ ::2， ::-1] 不 复制 任何 数据 的 原因 是 什么 。 简 单 地 
说 ，ndarray 不 只 是 一 块 内 存 和 一 个 dtype， 它 还 有 跨度 信息 ， 这 使 得 数组 能 以 各 种 步 幅 
(step size) 在 内 存 中 移动 起 汪 >。 更 准确 地 讲 ，ndarray 内 部 由 以 下 内 容 组 成 : 

。 ”一 个 指向 数组 (一 个 系统 内 存 块 ) 的 指针 。 

。 ”数据 类 型 或 dtype。 

。 ”一 个 表示 数组 形状 (shape) 的 元 组 ， 例 如 ， 一 个 10 x 5 的 数组 ， 其 形状 为 (10, 5)。 


In [8]: np.ones((10, 5)).shape 
Out[8]: (10, 5) 


。 ”一 个 跨度 元 组 (stride) ， 其 中 的 整数 指 的 是 为 了 前 进 到 当前 维度 下 一 个 元 素 需 
要 “ 跨 过 ”的 字 节 数 ， 例 如 ， 一 个 虎 型 的 (C 顺 序 ， 稍 后 将 详细 讲解 ) 3 x4 x 5 的 
float64 (8 个 字 节 ) 数组 ， 其 跨度 为 (160，40; 8) 。 


译注 1; 也 就 是 非 连续 存储 。 
译注 25 :数组 本 身 不 能 移动 ， 这 里 实际 上 说 的 是 指 韩 = 
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In [9]: np-ones((3，4，5)，dtype=np.float64) .strides 
out[9]: (160, 40, 8) 


虽然 NumPy 用 户 很 少 会 对 数组 的 跨度 信息 感 兴趣 ， 但 它们 却 是 构建 非 复 制式 数组 视 
图 的 重要 因素 。 跨 度 甚至 可 以 是 负数 ， 这 样 会 使 数组 在 内 存 中 后 向 移动 ， 比 如 在 切片 
obj[::-1] 或 obj[:，::-1] 中 就 是 这 样 的 。 


图 12-1 简 单 地 说 明了 ndarray 的 内 部 结构 。 





图 12-1: NumPy 的 ndarray 对 象 


NumPy 数 据 类 型 体系 








、 字 符 串 或 Python 对 象 。 因 
为 浮 点 数 的 种 类 很 多 ， 判 断 dtype 是 否 属于 某 个 大 类 非常 繁琐 。 幸 运 的 是 ，dtype 
都 有 一 个 超 类 (比如 np.integer 和 np.floating) ， 它 们 可 以 跟 np.issubdtype 函 数 结合 
使 用 : 





In [10]: ints = np.ones(10, dtype=np.uint16) 
In [11]: floats = np.ones(10, dtype=np.float32) 


In [12]: np.issubdtype(ints.dtype, np.integer) 
Out[12]: True 


In [13]: np.issubdtype(floats.dtype, np.floating) 
out[13]: True 


调用 dtype 的 mro 方 法 即 可 查看 其 所 有 的 父 类 : 


In [14]: np.float64.mro() 
Out[14]: 
[numpy.float64, 
numpy.floating, 
numpy. inexact, 
numpy-number， 
numpy.generic， 
float, 
object] 
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大 部 分 NumPy 用 户 完全 不 需要 了 解 这 些 知识 ， 但 是 这 些 知识 偶尔 还 是 能 派 上 用 场 的。 图 
12-2 说 明了 dtype 体 系 以 及 父子 类 关系 入 |。 





二 
名 








图 12-2: NumPy 的 dtype 体 系 


高 级 数组 操作 


除 花 式 索引 、 切 片 、 布 尔 条 件 取 子 集 等 操作 之 外 ， 数 组 的 操作 方式 还 有 很 多 。 虽 然 
pandas 中 的 高 级 函数 可 以 处 理 数据 分 析 工作 中 的 许多 重型 任务 ， 但 有 时 你 还 是 需要 编写 
- 些 在 现 有 库 中 找 不 到 的 数据 算法 。 


数组 重 塑 

鉴于 我 们 已 经 学 过 的 有 关 NumPy 数 组 的 知识 ， 当 你 知道 “无 需 复制 任何 数据 ， 数 组 就 
能 从 一 个 形状 转换 为 另 一 个 形状 ”时 应 该 会 感到 有 一 点 吃惊 。 只 需 向 数组 的 实例 方法 
reshape 传 人 一 个 表示 新 形状 的 元 组 即 可 实现 该 目的 。 假 设 有 一 个 一 维 数组 ， 我 们 希望 
将 其 重新 排列 为 一 个 矩阵 : 





In [15]: arr = np.arange(8) 


In [16]: arr 
out[16]: array([0, 1, 2, 3, 4, 5, 6, 7]) 


In [17]: arr.reshape((4, 2)) 
Out[17]: 


注 1: ”有些 dtype 的 名 称 后 面 带 有 下 划 线 ， 这 是 为 了 避免 NumPy 类 型 和 Python 类 型 之 间 的 变量 名 
冲突 。 
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array([[0，1]， 
[2, 3], 
[4, 5], 
[6, 7]]) 


多 维 数组 也 能 被 重 塑 : 


In [18]: arr.reshape((4, 2)).reshape((2, 4)) 
Out[18]: 
array([[0, 1, 2, 3], 

[4, 5, 6, 7]]) 


作为 参数 的 形状 的 其 中 一 维 可 以 是 一 1， 它 表示 该 维度 的 大 小 由 数据 本 身 推断 而 来 : 


In [19]: arr = np.arange(15) In [20]: arr.reshape((5, -1)) 
Out[20]: 
array([[ 0, 1, 2], 


由 于 数组 的 shape 属 性 是 一 个 元 组 ， 因 此 它 也 可 以 被 传人 reshape: 
In [21]: other arr = np.ones((3, 5)) 


In [22]: other arr.shape 
Out[22]: (3, 5) 


In [23]: arr.reshape(other arr.shape) 
Out[23]: 
array([[ 0, 1, 2, 3, 4], 

[5, 6, 7, 8, 9], 

[10, 11, 12, 13, 14]]) 


与 reshape 将 一 维 数组 转换 为 多 维 数组 的 运算 过 程 相反 的 运算 通常 称 为 扁平 化 


(flattening) 或 散 开 (raveling) : 


In [24]: arr = np.arange(15).reshape((5，3)) In [25]: arr 
out[25]: 


array([[ 0, 1, 2]， 
[ 3, 4, 5], 
[ 6, 7, 8], 
[ 9, 10, 11], 
[12, 13, 14]]) 


In [26]: arr.ravel() 
Out[26]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) 
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如 果 没 有 必要 ，ravel 不 会 产生 源 数据 的 副本 (下 面 将 详细 介绍 ) 。flatten 方 法 的 行为 
类 似 于 ravel， 只 不 过 它 总 是 返回 数据 的 副本 : 

In [27]: arr.flatten() 

out[27]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) 
数组 可 以 被 重 塑 或 散 开 为 别 的 顺序 。 这 对 NumPy 新 手 来 说 是 一 个 比较 微妙 的 问题 ， 所 以 
在 下 一 小 节 中 我 们 将 专门 讲解 这 个 问题 。 


C 和 Fortran 顺 序 


与 其 他 科学 计算 环境 相反 (如 R 和 MATLAB) ，NumPy 人 允许 你 更 为 灵活 地 控制 数据 在 内 
存 中 的 布局 。 上 默认 情况 下 ，NumPy 数 组 是 按 行 优先 顺序 创建 的 。 在 空间 方面 ， 这 就 意味 
着 ， 对 于 一 个 二 维 数组 ， 每 行 中 的 数据 项 是 被 存放 在 相 邻 内 存 位 置 上 的 。 另 一 种 顺序 是 
列 优先 顺序 ， 它 意味 着 〈( 猜 到 了 吧 ) 每 列 中 的 数据 项 是 被 存放 在 相 邻 内 存 位 置 上 的 。 


由 于 一 些 历史 原因 ， 行 和 列 优 先 顺 序 又 分 别称 为 C 和 Fortran 顺 序 。 在 FORTRAN 77 中 
(前 辈 们 的 语言 ) ， 算 阵 全 都 是 列 优先 的 。 


像 reshape 和 reval 这 样 的 函数 ， 都 可 以 接受 一 个 表示 数组 数据 存放 顺序 的 order 参 数 。 
- 般 可 以 是 'C' 或 'F，( 还 有 'A' 和 'K' 等 不 常用 的 选项 ， 具 体 请 参考 NumPy 的 文档 ) 。 图 
12-3 对 此 进行 了 说 明 。 


In [28]: arr = np.arange(12).reshape((3, 4)) 


In [29]: arr 

Out[29]: 

array([[ 0, 1, 2, 3], 
[4, 5, 6, 7], 

8, 9, 10, 11]]) 


In [30]: arr.ravel() 
Out[30]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) 


In [31]: arr.ravel('F') 
Out[31]: array([ 0, 4, 8, 1, 5, 9, 2, 6, 10, 3, 7, 11]) 


二 维 或 更 高 维 数组 的 重 塑 过 程 比较 令 人 费解 。C 和 Fortran 顺 序 的 关键 区 别 就 是 维度 的 行 
进 顺序 : 

。 cy/ 行 优先 顺序 : 先 经 过 更 高 的 维度 〈 例 如 ， 轴 1 会 先 于 轴 0 被 处 理 ) 。 

。 。 Fortran/ 列 优先 顺序 : 后 经 过 更 高 的 维度 〈 例 如 ， 轴 0 会 先 于 轴 1 被 处 理 ) 。 
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数组 的 合并 和 拆 分 
numpy.concatenate 可 以 按 指定 轴 将 一 个 由 数组 组 成 的 序列 (如 元 组 、 列 表 等 ) 连接 到 
一 起 。 

In [32]: arrl = np.array([[1, 2, 3], [4, 5, 6]]) 

In [33]: arr2 = np.array([[7, 8, 9], [10, 11, 12]]) 


In [34]: np.concatenate([arr1i, arr2], axis=0) 
Out[34]: 
array([[ 1, 2, 3]， 


In [35]: np.concatenate([arr1, arr2], axis=1) 
out[35]: 
array([[ 1，2，3，7，8，9]， 

[4, 5, 6, 10, 11, 12]]) 








4|5|16|1718|1911011 


arr.reshape((4, 3), order=?) 


《顺序 ( 行 优先 ) Fortran 顺序 〈( 列 优先 ) 


order='C" order="'F" 








图 12-3: 按 C ( 行 优先 ) 或 Fortran ( 列 优先 ) 顺序 进行 重 塑 


对 于 常见 的 连接 操作 ，NumPy 提 供 了 一 些 比较 方便 的 方法 (如 vstack 和 hstack) 。 因 
此 ， 上 面 的 运算 还 可 以 表达 为 ; 


In [36]: np.vstack((arrl，arT2)) In [37]: np.hstack((arr1, arr2)) 

Out[36]: Out[37]: 

array([[ 1, 2， 3]， array([[ 1, 2, 3, 7, 8, 9], 
[4 5, 6], [4, 5, 6, 10, 11, 12]]) 
[7, 8, 9], 
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与 此 相反 ，split 用 于 将 一 个 数组 沿 指定 轴 拆 分 为 多 个 数组 : 


In [38]: 


In [39]: 


from numpy.random import randn 


arr = randn(5, 2) In [40]: arr 
Out[40]: 
array([[ 0.1689, 0.3287], 
[ 0.4703, 0.8989]， 
[ 0.1535, 0.0243], 
[-0.2832, 1.1536], 
[ 0.2707, 0.8075]]) 


In [41]: first, second, third = np.split(arr, [1, 3]) 

In [42]: first 

Out[42]: array([[ 0.1689, 0.3287]]) 

In [43]: second In [44]: third 

Out[43]: Out[44]: 

array([[ 0.4703， 0.8989], array([[-0.2832， 1.1536], 
[ 0.1535, 0.0243]]) [ 0.2707, 0.8075]]) 


表 12-1 中 列 出 了 所 有 关于 数组 连接 和 拆 分 的 函数 ， 其 中 有 些 是 专门 为 了 方便 常见 的 连接 
运算 而 提供 的 。 


表 12-1: 数组 连接 国 数 所 ? 


函数 说 明 

concatenate 最 一 般 化 的 连接 ， 沿 一 条 轴 连 接 一 组 数组 
vstack、row_stack 以 面向 行 的 方式 对 数组 进行 堆 合 ( 沿 轴 0) 

hstack 以 面向 列 的 方式 对 数组 进行 堆 倒 ( 沿 轴 1) 
column_stack 类 似 于 hstack， 但 是 会 先 将 一 维 数组 转换 为 二 维 列 向 量 
dstack 以 面向 “深度 ”的 方式 对 数组 进行 堆 释 ( 沿 轴 2) 

split 沿 指定 轴 在 指定 的 位 置 拆 分 数组 


hsplit、 vsplit、 dsplit split 的 便捷 化 函数 ， 分 别 沿 轴 9、 轴 1、 轴 2 进行 拆 分 





堆 公 辅助 类 : r_ 和 c_ 
NumPy 命 名 空间 中 有 两 个 特殊 的 对 象 一 一 r_ 和 c_， 它 们 可 以 使 数组 的 堆 又 操作 更 为 


简洁 : 


In [45]: 


In [46]: 


arr = np.arange(6) 


arrl = arr.reshape((3, 2)) 


译注 3: 这 里 面 还 有 拆 分 函数 。 
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In [47]: arr2 = randn(3，2) 


In [48]: np.r_[arr1, arr2] In [49]: np.c_[np.r_[arrl，arr2]，arr] 
Out[48]: Out[49]: 
array([[ 0 3 ]， array([[ 0 ， 1. ， 0. ]， 
[2 ，3. ]， [2 3. ，1 J], 
[ 4. 5 ]， [ 4. » 5. 2 ]， 
[ 0.7258, -1.5325], [ 0.7258, -1.5325, 3. 加 
[-0.4696, -0.2127], [-0.4696, -0.2127, 4. ]s 
[-0.1072, 1.2871]]) [-0.1072, 1.2871, 5. ]]) 


此 外 ， 它 还 可 以 将 切片 翻译 为 数组 : 


In [50]: np.c_[1:6, -10:-5] 


out[50]: 

array([[ 1，-10]， 
[ 2, -9], 
[ 3, -8], 
[ 4, -7], 
[ 5, -6]]) 


r_ 和 c_ 的 具体 功能 请 参考 其 文档 。 


元 素 的 重复 操作 : tile 和 repeat 


注意 ， 跟 其 他 流行 的 数组 编程 语言 (如 MATLAB) 不 同 ，NumPy 中 很 少 需要 对 数组 进行 重复 
(replicate) 评注 4。 这 主要 是 因为 广播 (broadcasting， 我 们 将 在 下 一 节 中 讲解 该 技术 ) 能 
更 好 地 满足 该 需求 。 








对 数组 进行 重复 以 产生 更 大 数组 的 工具 主要 是 repeat 和 tile 这 两 个 函数 。repeat 会 将 数 
组 中 的 各 个 元 素 重复 一 定 次 数 ， 从 而 产生 一 个 更 大 的 数组 : 
In [51]: arr = np.arange(3) 


In [52]: arr.repeat(3) 
Out[52]: array([0, 0, 0, 1, 1, 1, 2, 2, 2]) 


默认 情况 下 ， 如 果 传人 的 是 一 个 整数 ， 则 各 元 素 就 都 会 重复 那么 多 次 。 如 果 传 人 的 是 一 
组 整数 ， 则 各 元 素 就 可 以 重复 不 同 的 次 数 : 


In [53]: arr.repeat([2, 3, 4]) 
Out[53]: array([0, 0, 1, 1, 1, 2, 2, 2, 2]) 


对 于 多 维 数组 ， 还 可 以 让 它们 的 元 素 沿 指定 轴 重 复 。 


译注 4: 实在 找 不 到 更 好 的 词 了 ， 所 以 这 里 还 是 应 该 解释 一 下 。 虽 然 都 是 “重复 ”， 但 可 以 这 样 理 
解 : duplicate 是 结果 ，replicate 是 造成 duplicate 的 过 程 。 
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In [54]: arr = randn(2，2) 


In [55]: arr 
Out[55]: 
array([[ 0.7157, -0.6387], 

[ 0.3626, 0.849 ]]) 
In [56]: arr.repeat(2, axis=0) 
Out[56]: 
array([[ 0.7157, -0.6387], 

[ 0.7157, -0.6387], 

[ 0.3626, 0.849 ], 

[ 0.3626, 0.849 ]]) 


注意 ， 如 果 没 有 设置 轴 向 ， 则 数组 会 被 扁平 化 ， 这 可 能 不 会 是 你 想 要 的 结果 。 同 样 ， 在 
对 多 维 进行 重复 时 ， 也 可 以 传人 一 组 整数 ， 这 样 就 会 使 各 切片 重复 不 同 的 次 数 ， 


In [57]: arr.repeat([2, 3], axis=0) 
Out[57]: 
array([[ 0.7157, -0.6387], 
[ 0.7157, -0.6387], 
0.3626， 0.849 ]， 
0.3626， 0.849 ]， 
[ 0.3626, 0.849 ]]) 


In [58]: arr.repeat([2, 3], axis=1) 
out[58] : 
array([[ 0.7157， 0.7157, -0.6387, -0.6387, -0.6387], 
0.3626, 0.3626, 0.849 ， 0.849 ， 0.849 ]]) 


tile 的 功能 是 沿 指定 轴 向 堆肥 数组 的 副本 。 你 可 以 形象 地 将 其 想象 成 “ 铺 瓷砖 ”: 


In [59]: arr 
Out[59]: 
array([[ 0.7157, -0.6387], 
0.3626, 0.849 ]]) 


In [60]: np.tile(arr, 2) 
Out[60]: 
array([[ 0.7157, -0.6387, 0.7157, -0.6387], 

[ 0.3626, 0.849 ， 0.3626， 0.849 ]]) 


第 二 个 参数 是 瓷砖 的 数量 。 对 于 标量 ， 瓷 砖 是 水 平 铺设 的 ， 而 不 是 垂直 铺设 。 它 可 以 是 
一 个 表示 “铺设 ”布局 的 元 组 : 








In [61]: arr 

Out[61]: 

array([[ 0.7157, -0.6387], 
[ 0.3626, 0.849]]) 


In [62]: np.tile(arr, (2, 1)) In [63]: np.tile(arr, (3, 2)) 
Out[62]: Out[63]: 
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array([ 


[ 0.7157, -0.6387], array([[ 0.7157, -0.6387, 0.7157, -0.6387], 
[ 0.3626, 0.849], [ 0.3626, 0.849 ， 0.3626, 0.849 ]， 
[ 0.7157, -0.6387], [ 0.7157, -0.6387, 0.7157, -0.6387], 
[ 0.3626, 0.849 ]]) [ 0.3626, 0.849 ， 0.3626, 0.849 ]， 
[ 0.7157, -0.6387, 0.7157, -0.6387], 
[ 0.3626, 0.849 ， 0.3626, 0.849 ]]) 


花 式 索引 的 等 价 函 数 : take 和 put 
在 第 4 章 中 我 们 讲 过 ， 获 取 和 设置 数组 子 集 的 一 个 办 法 是 通过 整数 数组 使 用 花 式 索 引 : 


In [64]: 


In [65]: 


arr = np.arange(10) * 100 


inds = [7, 1, 2, 6] In [66]: arr[inds] 
Out[66]: array([700, 100, 200, 600]) 


ndarray 有 两 个 方法 专门 用 于 获取 和 设置 单个 轴 向 上 的 选区 : 


In [67]: 
Out[67]: 


In [68]: 


In [69]: 
Out[69]: 


In [70]: 


In [71]: 


Out[71 


arr.take(inds) 
array([700, 100, 200, 600]) 


arr.put(inds, 42) 


arr 
array([ 0, 42, 42, 300, 400, 500, 42, 42, 800, 900]) 


arr.put(inds, [40, 41, 42, 43]) 


arr 
: array([ 0, 41, 42, 300, 400, 500, 43， 40, 800,900]) 


要 在 其 他 轴 上 使 用 take， 只 需 传人 axis 关 键 字 即 可 : 


In [72]: 


In [73 


In [74]: 
out[74] : 





array([ 





In [75] 
Out[75] 


inds = [2, 0, 2, 1] 
: arr = randn(2, 4) 
arr 


[-0.8237, 2.6047, -0.4578, -1. ] ， 
[ 2.3198, -1.0792, 0.518 ， 0.2527]]) 


: arr.take(inds, axis=1) 


array([[-0.4578, -0.8237, -0.4578, 2.6047], 


[0.518 ， 2.3198, 0.518 , -1.0792]]) 


put 不 接受 axis 参 数 ， 它 只 会 在 数组 的 扁平 化 版 本 (一 维 ，C 顺 序 ) 上 进行 索引 (这 一 点 
今后 应 该 是 会 有 所 改善 的 ) 。 因 此 ， 在 需要 用 其 他 轴 向 的 索引 设置 元 素 时 ， 最 好 还 是 使 
用 花 式 索引 。 
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注意 : 直到 编写 本 书 时 为 止 ，take 和 put 函 数 的 性 能 通常 要 比 花 式 索引 好 得 多 。 我 认为 这 是 一 个 
“bug”，NumPy 中 应 该 有 什么 东西 需要 修正 才 对 。 当 你 用 整数 数组 选取 大 数组 的 子 集 时 ， 
最 好 还 是 注意 一 下 这 个 问题 : 
In [76]: arr = randn(1000, 50) 


# 500 行 随机 样本 
In [77]: inds = np.random.permutation(1000)[:500] 


In [78]: %timeit arr[inds] 
1000 loops, best of 3: 356 us per loop 


In [79]: %timeit arr.take(inds, axis=0) 
10000 loops, best of 3: 34 us per loop 


广播 (broadcasting) 指 的 是 不 同形 状 的 数组 之 间 的 算术 运算 的 执行 方式 。 它 是 一 种 非常 
强大 的 功能 ， 但 也 容易 令 人 误解 ， 即 使 是 经 验 丰富 的 老手 也 是 如 此 。 将 标量 值 跟 数组 合 
并 时 就 会 发 生 最 简单 的 广播 : 





In [80]: arr = np.arange(5) 

In [81]: arr In [82]: arr* 4 

Out[81]: array([0, 1, 2, 3, 4]) Out[82]: array([ 0, 4, 8, 12, 16]) 
这 里 我 们 说 : 在 这 个 乘法 运算 中 ， 标 量 值 4 被 广播 到 了 其 他 所 有 的 元 素 上 。 


再 来 看 一 个 例子 ， 我 们 可 以 通过 减 去 列 平均 值 的 方式 对 数组 的 每 一 列 进行 距 平 化 处 理 。 
这 个 问题 解决 起 来 非常 简单 : 


In [83]: arr = randn(4, 3) 


In [84]: arr.mean(0) 
Out[84]: array([ 0.1321, 0.552 , 0.8571]) 


In [85]: demeaned = arr - arr.mean(0) 


In [86]: demeaned In [87]: demeaned.mean(0) 
Out[86]: Out[87]: array([ 0., -0., -0.]) 
array([[ 0.1718, -0.1972, -1.3669], 

[ -0.1292, 1.6529, -0.3429], 

[ -0.2891, -0.0435, 1.2322], 

[ 0.2465, -1.4122, 0.4776]]) 


图 12-4 形 象 地 展示 了 该 过 程 。 用 广播 的 方式 对 行进 行距 平 化 处 理会 稍微 麻烦 一 些 。 幸 运 
的 是 ， 只 要 遵循 一 定 的 规则 ， 低 维度 的 值 是 可 以 被 广播 到 数组 的 任意 维度 的 〈 比 如 对 二 
维 数组 各 列 减 去 行 平均 值 ) 。 于 是 就 得 到 了 : 
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图 12-4: 一 维 数 组 在 轴 0 上 的 广播 


广播 的 原则 
如 果 两 个 数组 的 后 缘 维 度 (trailing dimension， 即 从 末尾 开始 算 起 的 维度 ) 的 轴 长 
度 相符 或 其 中 一 方 的 长 度 为 1， 则 认为 它们 是 广播 兼容 的 。 广 播 会 在 缺失 和 (或 ) 
长 度 为 1 的 维度 上 进行 。 














虽然 我 是 一 名 经 验 丰 富 的 NumPy 老 手 ， 但 经 常 还 是 得 停 下 来 画 张 图 并 想 想 广播 的 原则 。 
再 来 看 一 下 最 后 那个 例子 ， 假 设 你 希望 对 各 行 减 去 那个 平均 值 。 由 于 arr.mean(0) 的 长 
度 为 3， 所 以 它 可 以 在 0 轴 向 上 进行 广播 : 因为 arr 的 后 缘 维度 是 3， 所 以 它们 是 兼容 的 。 
根据 该 原则 ， 要 在 1 轴 向 上 做 减法 ( 即 各 行 减 去 行 平均 值 ) ， 较 小 的 那个 数组 的 形状 必 
须 是 (4, 1): 
In [88]: arr 
Out[88]: 
array([[ 0.3039, 0.3548, -0.5097], 
[ 0.0029, 2.2049， 0.5142]， 


[ -0.1571, 0.5085, 2.0893], 
[ 0.3786, -0.8602, 1.3347]]) 





In [89]: row_means = arr.mean(1) In [90]: row_means.reshape((4，1)) 
Out[90]: 
array([[ 0.0496], 
[ 0.9073], 
[ 0.8136], 
[ 9.2844]]) 


In [91]: demeaned = arr - row means.reshape((4, 1)) 


In [92]: demeaned.mean(1) 
Out[92]: array([ 0.， 0., 0., 0.]) 


你 的 头 还 没 炸 吧 ? 图 12-5 说 明了 该 运算 的 过 程 。 
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图 12-5: 二 维 数组 在 轴 1 上 的 广播 
图 12-6 展 示 了 另外 一 种 情况 ， 这 次 是 在 一 个 三 维 数组 上 沿 0 轴 向 加 上 一 个 二 维 数组 。 











图 12-6: 三 维 数组 在 轴 0 上 的 广播 


沿 其 他 轴 向 广播 
高 维度 数组 的 广播 似乎 更 难以 理解 ， 而 实际 上 它 也 是 遵循 广播 原则 的 。 如 果 不 然 ， 你 就 
会 得 到 下 面 这 样 一 个 错误 ; 





In [93]: arr - arr.mean(1) 

ValueError Traceback (most recent call last) 
<ipython-input-93-7b87b85a20b2> in <module>() 

---->1arr - arr.mean(1) 

ValueError: operands could not be broadcast together with shapes (4,3) (4) 


人 们 经 常 需要 通过 算术 运算 过 程 将 较 低 维度 的 数组 在 除 0 轴 以 外 的 其 他 轴 向 上 广播 。 根 
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据 广播 的 原则 ， 较 小 数组 的 “广播 维 ” 必 须 为 !。 在 上 面 那个 行距 平 化 的 例子 中 ， 这 就 
意味 着 要 将 行 平均 值 的 形状 变 成 (4，1) 而 不 是 (4, ): 
In [94]: arr - arr.mean(1).reshape((4, 1)) 
out[94] : 
array([[ 0.2542, 0.3051, -0.5594], 
[ -0.9044, 1.2976, -0.3931], 
[ -0.9707, -0.3051, 1.2757], 
[ 0.0942, -1.1446, 1.0503]]) 
对 于 三 维 的 情况 ， 在 三 维 中 的 任何 一 维 上 广播 其 实 也 就 是 将 数据 重 塑 为 兼容 的 形状 而 
已 。 图 12-7 说 明了 要 在 三 维 数组 各 维度 上 广播 的 形状 需求 。 





整个 数组 的 形状 : (8，5，3) 轴 2: (8，5，17 














图 12-7: 能 在 该 三 维 数组 上 广播 的 二 维 数组 的 形状 


于 是 就 有 了 一 个 非常 普遍 的 问题 (尤其 是 在 通用 算法 中 ) ， 即 专门 为 了 广播 而 添加 一 个 
长 度 为 1 的 新 铀 。 虽 然 reshape 是 一 个 办 法 ， 但 插入 轴 需 要 构造 一 个 表示 新 形状 的 元 组 。 
这 是 一 个 很 郁闷 的 过 程 。 因 此 ，NumPy 数 组 提供 了 一 种 通过 索引 机 制 插入 轴 的 特殊 语 
法 。 下 面 这 段 代码 通过 特殊 的 np.newaxis 属 性 以 及 “全 ”切片 来 插入 新 轴 : 

In [95]: arr = np.zeros((4, 4)) 

In [96]: arr 3d = arr[:, np.newaxis, :] 


In [97]: arr_3d.shape 
Out[97]: (4, 1, 4) 


In [98]: arr_ 1d = np.random.normal(size=3) 
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In [99]: arr 1d[:, np.newaxis] In [100]: arr_1d[np.newaxis, :] 

Out[99]: Out[100]: array([[-0.3899， 0.396 ，-0.1852]]) 
array([[-0.3899], 

[ 0.396 ]， 

-0.1852]]) 


因此 ， 如 果 我 们 有 一 个 三 维 数组 ， 并 希望 对 轴 2 进 行距 平 化 ， 那 么 只 需要 编写 下 面 这 样 
的 代码 就 可 以 了 : 


In [101]: arr = randn(3, 4, 5) 
In [102]: depth means = arr.mean(2) 


In [103]: depth_means 
Out[103]: 
array([[ 0.1097, 0.3118, -0.5473, 0.2663], 
[ 0.1747, 0.1379, 0.1146, -0.4224], 
0.0217， 0.3686, -0.0468, 1.3026]]) 


In [104]: demeaned = arr - depth means[:, :, np.newaxis] 
In [105]: demeaned.mean(2) 


Out[105]: 
array([ 








也 许 你 会 对 此 感到 非常 困惑 。 不 用 担心 ， 只 要 多 动手 ， 很 快 就 能 搞 明 白 ! 


有 些 读者 可 能 会 想 ， 在 对 指定 轴 进 行距 平 化 时 ， 有 没有 一 种 既 通用 又 不 牺牲 性 能 的 方法 
呢 ? 实 际 上 是 有 的 ， 但 需要 一 些 索 引 方面 的 技巧 : 


def demean_axis(arr, axis=0): 
means = arr.mean(axis) 


# 下 面 这 些 一 般 化 的 东西 类 似 于 N 维 的 [: ，:，np.newaxis] 
indexer = [slice(None)] * arr.ndim 

indexer[axis] = np.newaxis 

return arr - means[indexer] 


通过 广播 设置 数组 的 值 
算术 运算 所 遵循 的 广播 原则 同样 也 适用 于 通过 索引 机 制 设置 数组 值 的 操作 。 对 于 最 简单 
的 情况 ， 我 们 可 以 这 样 做 ， 


In [106]: arr = np.zeros((4, 3)) 


In [107]: arr[:] = 5 In [108]: arr 
Qut[108]: 
array([[ 5. 


，5.，5.]， 
[ 5., 5., 5.], 
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5.]， 
5.]]) 

再 看 一 个 复杂 点 的 例子 ， 假 设 我 们 想 要 用 一 个 一 维 数组 来 设置 目标 数组 的 各 列 。 只 要 保 
证 形状 兼容 就 可 以 了 : 


5.， 5.， 
5.， 5.， 


In [109]: col = np.array([1.28，-0.42，0.44，1.6]) 


In [110]: arr[:] = col[:, np.newaxis] In [111]: arr 
Out[111]: 

array([[ 1.28, 1.28, 1.28], 

[ -0.42, -0.42, -0.42], 

[ 0.44, 0.44, 0.44]， 

让 Sp Li 


In [112]: arr[:2] = [[-1.37], [0.509]] In [113]: arr 
Out[113]: 
array([[-1.37 ，-1.37 , -1.37 ]， 
[ 0.509, 0.509, 0.509]， 
[ 0.44 ，0.44 ，0.44 ]， 
下 a 


ufunc 高 级 应 用 


虽然 许多 NumPy 用 户 只 会 用 到 通用 函数 所 提供 的 快速 的 元 素 级 运算 ， 但 通用 函数 实际 上 
还 有 一 些 高 级 用 法 能 使 我 们 丢 开 循环 而 编写 出 更 为 简洁 的 代码 。 


ufunc 实 例 方法 
NumPy 的 各 个 二 元 ufunc 都 有 一 些 用 于 执行 特定 矢量 化 运算 的 特殊 方法 。 表 12-2 汇 总 了 这 
些 方法 ， 下 面 我 将 通过 几 个 具体 的 例子 对 它们 进行 说 明 。 


reduce 接 受 一 个 数组 参数 ， 并 通过 一 系列 的 二 元 运算 对 其 值 进 行 聚合 (可 指明 轴 向 ) 。 
例如 ， 我 们 可 以 用 np.add.reduce 对 数组 中 各 个 元 素 进行 求 和 : 


In [114]: arr = np.arange(10) 


In [115]: np.add.reduce(arr) 
Out[115]: 45 


In [116]: arr.sum() 
Out[116]: 45 
起 始 值 取 决 于 ufunc (对 于 add 的 情况 ， 就 是 0) 。 如 果 设 置 了 轴 号 ， 约 简 运 算 就 会 沿 该 轴 
向 执行 。 这 就 使 你 能 用 一 种 比较 简洁 的 方式 得 到 某 些 问题 的 答案 。 在 下 面 这 个 例子 中 ， 
我 们 用 np.1logical_and 检 查 数组 各 行 中 的 值 是 否 是 有 序 的 : 





NumpPy 高 级 应 用 | 383 


In [118] : 
In [119]: 


In [120]: 


arr = randn(5，5) 
arr[::2].sort(1) # 对 部 分 行进 行 排序 


wr Sr 4 


Out[120] : 


array([[ 
[ 
[ 
[ 
[ 


In [121] 
Out[121] 


True, True, True, True], 
False, True, False, False], 
True, True, True, True], 
True, False, True, True], 
True, True, True, True]]，dtype=bool) 


: np.logical and.reduce(arr[:，:-1] < arr[:, 1:], axis=1) 
: array([ True, False, True, False, True], dtype=bool) 


当然 了 ，logical_and.reduce 跟 al1 方 法 是 等 价 的 。 


accumulate 跟 reduce 的 关系 就 像 cumsum 跟 sum 的 关系 那样 。 它 产生 一 个 跟 原 数组 大 小 相同 
的 中 间 “ 累 计 ” 值 数组 : 


In [122 


In [123]: 
out[123]: 


array([[ 
[ 


: arr = np.arange(15).reshape((3，5)) 
np.add.accunulate(arr, axis=1) 
0, 1, 3, 6, 10], 


5, 11, 18, 26, 35], 
10, 21, 33, 46, 60]]) 


outer 用 于 计算 两 个 数组 的 叉 积 : 


In [124]: 


In [125]: 
Out[125]: 


In [126]: 
Out[126]: 





array([ 


[ 





[ 


arr = np.arange(3).repeat([1, 2, 2]) 


arr 
array([0, 1, 1, 2, 2]) 


np.multiply.outer(arr, np.arange(5)) 


0, 0 0, 0, 0]， 
0, 1, 2, 3, 4], 
0 1, 2, 3, 4], 
0, 2, 4, 6, 8], 
0, 2, 4, 6, 8]]) 


outer 输 出 结果 的 维度 是 两 个 输入 数据 的 维度 之 和 : 


In [127]: 





In [128 
out[128] 


Tesult = np.subtract.outer(randn(3, 4), randn(5)) 


: result. shape 
: (3, 4, 5) 


最 后 一 个 方法 reduceat 用 于 计算 “局 部 约 简 ”， 其 实 就 是 一 个 对 数据 各 切片 进行 聚合 的 
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groupby 运 算 。 虽 然 其 灵活 性 不 如 pandas 的 groupby 功 能 ， 但 它 在 适当 的 情况 下 运算 会 非 
常 快 。 它 接受 一 组 用 于 指示 如 何 对 值 进行 拆 分 和 聚合 的 “ 面 元 边界 ”: 

In [129]: arr = np.arange(10) 

In [130]: np.add.reduceat(arr, [0, 5, 8]) 

out[130]: array([10, 18, 17]) 
最 终结 果 是 在 arr[0:5] 、arr[5:8] 以 及 arr[8:] 上 执行 的 约 简 (本 例 中 就 是 求 和 ) 。 跟 其 
他 方法 一 样 ， 这 里 也 可 以 传人 一 个 axis 参 数 : 


In [131]: arr = np.multiply.outer(np.arange(4)，np.arange(5)) 


In [132]: arr In [133]: np.add.reduceat(arr, [0, 2, 4], axis=1) 
Out[132]: Out[133]: 
array([[ 0, 0, 0, 0, 0], array([[ 0, 0, 0], 

[o 1 2, 3, 4], [1 5, 4], 

[0 2, 4, 6, 8], [2, 10, 8], 

[0 3, 6, 9, 12]]) [ 3, 15, 12]]) 


表 12-2: ufunc 的 方法 


方法 说 明 

reduce(x) 通过 连续 执行 原始 运算 的 方式 对 值 进 行 聚 合 

accumulate(x) 聚合 值 ， 保 留 所 有 局 部 聚合 结果 

reduceat(x, bins) “局 部 ” 约 简 (也 就 是 groupby) 。 约 简 数据 的 各 个 切片 以 产生 聚合 
型 数组 

outer(x, y) 对 x 和 y 中 的 每 对 元 素 应 用 原始 运算 。 结 果 数 组 的 形状 为 x.shape + 
y.shape 





自 定义 ufunc 

有 两 个 工具 可 以 让 你 将 自 定义 函数 像 ufunc 那 样 使 用 。numpy.frompyfunc 接 受 一 个 Python 
函数 以 及 两 个 分 别 表示 输入 输出 参数 数量 的 整数 。 例 如 ， 下 面 是 一 个 能 够 实现 元 素 级 加 
法 的 简单 函数 : 


In [134]: def add_elements(x，y): 
a return x + y 


In [135]: add_them = np.frompyfunc(add elements, 2, 1) 


In [136]: add_them(np.arange(8), np.arange(8)) 
Out[136]: array([0, 2, 4, 6, 8, 10, 12, 14], dtype=object) 


用 frompyfunc 创 建 的 函数 总 是 返回 Python 对 象 数 组 ， 这 一 点 很 不 方便 。 幸 运 的 是 ， 还 有 
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另 一 个 办 法 ， 即 numpy.vectorize。 虽 然 没有 frompyfunc 那 么 强大 ,但 它 在 类 型 推断 方面 
要 更 智能 一 些 : 
In [137]: add them = np.vectorize(add elements, otypes=[np.float64]) 


In [138]: add_them(np.arange(8), np.arange(8)) 

Out[138]: array([ 0.， 2.5 4 6.， 0 
虽然 这 两 个 函数 提供 了 一 种 创建 ufunc 型 函数 的 手段 ， 但 它们 非常 慢 ， 因 为 它们 在 计算 
每 个 元 素 时 都 要 执行 一 次 Python 函 数 调用 ， 这 自然 会 比 NumPy 自 带 的 基于 C 的 ufunc 慢 
很 多 : 





In [139]: arr = randn(10000) 


In [140]: %timeit add_them(arr, arr) 
100 loops, best of 3: 2.12 ms per loop 


In [141]: %timeit np.add(arr, arr) 
100000 loops, best of 3: 11.6 us per loop 


为 此 ，Python 科 学 计算 社区 正在 开发 一 些 项 目 ， 力 求 使 自 定义 ufunc 的 性 能 接近 内 置 的 那 
些 


结构 化 和 记录 式 数 组 


你 可 能 已 经 注意 到 了 ， 到 目前 为 止 我 们 所 讨论 的 ndarray 都 是 一 种 同 质数 据 容器 ， 也 就 是 
说 ， 在 它 所 表示 的 内 存 块 中 ， 各 元 素 占 用 的 字 节 数 相同 (具体 根据 dtype 而 定 ) 。 从 表面 
上 看 ， 它 似乎 不 能 用 于 表示 异 质 或 表格 型 的 数据 。 结 构 化 数组 是 一 种 特殊 的 ndarray， 其 
中 的 各 个 元 素 可 以 被 看 做 C 语 言 中 的 结构 体 (struct， 这 就 是 “结构 化 ”的 由 来 ) 或 SQL 
表 中 带 有 多 个 命名 字段 的 行 : 

In [142]: dtype = [('x"，np.float64)，("y"，np.int32)] 

In [143]: sarr = np.array([(1.5, 6), (np.pi, -2)], dtype=dtype) 

In [144]: sarr 

Out[144]: 

array([(1.5, 6), (3.141592653589793, -2)], 

dtype=[('x', "<f8'), ('y’, ‘<i4')]) 

定义 结构 化 dtype (请 参考 NumPy 的 在 线 文档 ) 的 方式 有 很 多 。 最 典型 的 办 法 是 元 组 列 
表 ， 各 元 组 的 格式 为 (field_name，field_data_type)。 这 样 ， 数 组 的 元 素 就 成 了 元 组 式 
的 对 象 ， 该 对 象 中 各 个 元 素 可 以 像 字典 那样 进行 访问 : 


In [145]: sarr[0] 
Out[145]: (1.5, 6) 
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In [146]: sarr[o]['y'] 
Out[146]: 6 


字段 名 保存 在 dtype.names 属 性 中 。 在 访问 结构 化 数组 的 某 个 字段 时 ， 返 回 的 是 该 数据 
的 视图 ， 所 以 不 会 发 生 数据 复制 : 


In [147]: sarr['x'] 
Out[147]: array([ 1.5 ， 3.1416]) 


藤 套 dtype 和 多 维 字段 


在 定义 结构 化 dtype 时 ， 你 可 以 再 设置 一 个 形状 (可 以 是 一 个 整数 ， 也 可 以 是 一 个 元 


组 ) : 
In 
In 


In 
Out 


148]: dtype = [('x'，np.int64，3)，('y'，np.int32)] 
149]: arr = np.zeros(4, dtype=dtype) 


150]: arr 
150]: 


array([([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0)], 


dtype=[('x "<i8’, (3,)), ('y', '<i4')]) 


在 这 种 情况 下 ， 各 个 记录 的 x 字段 所 表示 的 是 一 个 长 度 为 3 的 数组 : 


In 
Out 


151]: arr[o]['x’] 
151]: array([0, 0, 0]) 


访问 arr['x'] 即 可 得 到 一 个 二 维 数组 ， 而 不 是 前 面 那 个 例子 中 的 一 维 数组 : 


In 
Out 





152]: arr['x'] 
152]: 
array([[0, 0, 0], 


这 就 使 我 们 能 用 单个 数组 的 内 存 块 存放 复杂 的 供 套 结构 。 既 然 dtype 可 以 想 怎么 复杂 就 怎 
么 复杂 ， 那 为 什么 不 试 试 奉 套 dtype 呢 ? 下 面 是 一 个 简单 的 例子 : 


In [153]: dtype = [('x’, [('a’, 'f8"), ("b’, ‘#4°)]), ('y', np.int32)] 


In [154]: data = np.array([((1, 2), 5), ((3, 4), 6)], dtype=dtype) 





In [155]: data['x'] 
Out[155]: 
array([(1.0, 2.0), (3.0, 4.0)], 


dtype=[(a *<f8°), ("b’, '<f4°)]) 
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In [156]: data['y'] 
Out[156]: array([5, 6], dtype=int32) 


In [157]: data['x']["a'] 

out[157]: array([ 1.， 3.]) 
不 难看 出 ， 可 变形 状 的 字段 和 婴 套 记录 是 一 种 非常 强大 的 功能 。 与 此 相 比 ，pandas 的 
DataFrame 并 不 直接 支持 该 功能 ， 但 它 的 分 层 索 引 机 制 跟 这 个 差不多 。 


为 什么 要 用 结构 化 数组 

跟 pandas 的 DataFrame 相 比 ，NumPy 的 结构 化 数组 是 一 种 相对 较 低级 的 工具 。 它 可 以 将 
单个 内 存 块 解释 为 带 有 任意 复杂 做 套 列 的 表格 型 结构 。 由 于 数组 中 的 每 个 元 素 在 内 存 中 
都 被 表示 为 固定 的 字 节 数 ， 所 以 结构 化 数组 能 够 提供 非常 快速 高 效 的 磁盘 数据 读 写 ( 包 
括 内 存 映 像 ， 稍 后 将 详细 介绍 ) 、 网 络 传输 等 功能 。 


结构 化 数组 的 另 一 个 常见 用 法 是 ， 将 数据 文件 写成 定 长 记录 字 节 流 ， 这 是 C 和 C++ 代码 
中 常见 的 数据 序列 化 手段 (业界 许多 历史 系统 中 都 能 找 得 到 ) 。 只 要 知道 文件 的 格式 
(记录 的 大 小 、 元 素 的 顺序 、 字 节 数 以 及 数据 类 型 等 ) ， 就 可 以 用 np.fromfile 将 数据 读 
和 人 内存。 这 种 用 法 超出 了 本 书 的 范围 ， 只 要 知道 有 这 么 一 回 事 就 可 以 了 。 





结构 化 数组 操作 : numpy.lib.recfunctions 


适用 于 结构 化 数组 的 函数 没有 DataFrame 那 么 多 。NumPy 模 块 numpy.1ib.recfunctions 
中 有 一 些 用 于 增删 字段 或 执行 基本 连接 运算 的 工具 。 对 于 这 些 工具 ， 我 们 需要 记 住 的 
是 : 一 般 都 需要 创建 一 个 新 数组 以 便 对 dtype 进 行 修改 〈 比 如 添加 或 删除 一 列 ) 。 这 些 函 
数 就 留 给 有 兴趣 的 读者 自己 去 研究 了 ， 因 为 本 书 中 不 会 用 到 它们 。 


更 多 有 关 排 序 的 话题 


跟 Python 内 置 的 列表 一 样 ，ndarray 的 sort 实 例 方法 也 是 就 地 排序 。 也 就 是 说 ， 数 组 内 容 
的 重新 排列 是 不 会 产生 新 数组 的 : 


In [158]: arr = randn(6) 
In [159]: arr.sort() 


In [160]: arr 
Out[160]: array([-1.082 ， 0.3759, 0.8014, 1.1397, 1.2888, 1.8413]) 


在 对 数组 进行 就 地 排序 时 要 注意 一 点 : 如果 目标 数组 只 是 一 个 视图 ， 则 原始 数组 将 会 被 
修改 : 
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In [161]: arr = randn(3, 5) 
In [162]: arr 
Out[162]: 
array([[-0.3318, 
[-1.0111， 
0.1773， 


-1.4711， 
-0.3436， 
0.7424， 


0.8705, 
2.1714， 
0.8548， 
In [163]: arr[:， 
In [164]: arr 

Out[164]: 
array([[-1.0111, 
-0.3318, 
0.1773, 


-1.4711， 
-0.3436， 
0.7424, 


0.8705， 
2.1714， 
0.8548， 


-0.0847，-1.1329]， 


0. 


1234, -0.0189], 


1.038 ，-0.329 ]]) 


0].sort() # Sort first column values in-place 


-0.0847，-1.1329]， 


0.1234， 


0.0189] , 


1.038 ，-0.329 ]]) 


相反 ，numpy.sort 会 为 原 数组 创建 一 个 已 排序 副本 。 它 所 接受 的 参数 (比如 kind， 稍 后 


介绍 ) 跟 ndarray.sort 一 样 : 


In [165]: arr = randn(5) 
In [166]: arr 

Out[166]: array([-1.1181, 
In [167]: np.sort(arr) 


Out[167]: array([-2.0051, 
In [168]: arr 
Out[168]: array([-1.1181, 


-0.2415, -2.0051, 


-1.1181, -1.0614, -0.2415, 


-0.2415, -2.0051, 


0.7379, -1.0614]) 


0.7379]) 


0.7379, -1.0614]) 


这 两 个 排序 方法 都 可 以 接受 一 个 axis 参 数 ， 以 便 沿 指定 轴 向 对 各 块 数据 进行 单独 排序 ， 


In [169]: arr = randn(3，5) 
In [170]: 
Out[170]: 
array([ 


arr 


0.5955, -0.2682, 1.3389, 
-0.3215， 1.0054, -0.5168, 
0.3969, -1.7638, 0.6071， 
In [171]: arr.sort(axis=1) 
In [172]: arr 

Out[172]: 
array([[-0.2682, -0.1872, 0.5955, 
[-0.5168, -0.3215, -0.1989, 
-1.7638, -0.2222, -0.2171, 








“1925， 


1872， 





2222， 





.2171]]) 


0.9111， 
1.0054， 
0.3969， 


1.3389]， 
1.1925], 
0.6071]]) 


你 可 能 注意 到 了 ， 这 两 个 排序 方法 都 不 可 以 被 设置 为 降序 。 其 实 这 也 无 所 谓 ， 因 为 数组 
切片 会 产生 视图 (也 就 是 说 ， 不 会 产生 副本 ， 也 不 需要 任何 其 他 的 计算 工作 ) 。 许 多 
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Python 用 户 都 很 熟悉 一 个 有 关 列表 的 小 技巧 : values[::-1] 可 以 返回 一 个 反 序 的 列表 。 
对 ndarray 也 是 如 此 : 

In [173]: arr[:, ::-1] 

Out[173]: 

array([[ 1.3389, 0.9111, 0.5955, -0.1872, -0.2682], 


[ 1.1925, 1.0054, -0.1989, -0.3215, -0.5168], 
[ 0.6071, 0.3969, -0.2171, -0.2222, -1.7638]]) 


间接 排序 . argsort 和 Ilexsort 

在 数据 分 析 工 作 中 ， 常 常 需要 根据 一 个 或 多 个 键 对 数据 集 进行 排序 。 例 如 ， 一 个 有 关 学 
生 信 息 的 数据 表 可 能 需要 以 姓 和 名 进行 排序 ( 先 姓 后 名 ) 。 这 就 是 间接 排序 的 一 个 例 
子 ， 如 果 你 阅读 过 有 关 pandas 的 章节 ， 那 就 已 经 见 过 不 少 高 级 例子 了 。 给 定 一 个 或 多 个 
键 ， 你 就 可 以 得 到 一 个 由 整数 组 成 的 索引 数组 (我 亲切 地 称 之 为 索引 器 ) ， 其 中 的 索引 
值 说 明了 数据 在 新 顺序 下 的 位 置 。argsort 和 numpy.lexsort 就 是 实现 该 功能 的 两 个 主要 
方法 。 下 面 是 一 个 简单 的 例子 : 


In [174]: values = np.array([5, 0, 1, 3, 2]) 
In [175]: indexer = values.argsort() 


In [176]: indexer 
Out[176]: array([1, 2, 4, 3, 0]) 


In [177]: values[indexer] 
Out[177]: array([0, 1, 2, 3, 5]) 


下 面 这 段 代码 根据 数组 的 第 一 行 对 其 进行 排序 : 
In [178]: arr = randn(3，5) 
In [179]: arr[o] = values 


In [180]: arr 
Out[180] 
array([[ 5. 5 ， 2. ]， 
[-0.3636，-0.1378， 2.1777，-0.4728， 0.8356] ， 
-0.2089， 0.2316， 0.728 ，-1.3918， 1.9956]]) 


In [181]: arr[:, arr[0].argsort()] 
Out[181]: 
array([[ 0. ， We Se i Ss jy 
[-0.1378, 2.1777, 0.8356, -0.4728, -0.3636], 
0.2316, 0.728 ， 1.9956, -1.3918, -0.2089]]) 








lexsort 跟 argsort 差 不 多 ， 只 不 过 它 可 以 一 次 性 对 多 个 键 数组 执行 间接 排序 (字典 序 ) 。 
假设 我 们 想 对 一 些 以 姓 和 名 标识 的 数据 进行 排序 : 
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In [182]: first_name = np.array(["Bob'，']ane'，'Steve'，'Bill'，'Barbara']) 
In [183]: last_name = np.array(['Jones’, ‘Arnold', 'Arnold', 'Jones', 'Walters']) 
In [184]: sorter = np.lexsort((first_name, last_name)) 


In [185]: zip(last_name[sorter], first_name[sorter]) 
Out[185]: 

[('Arnold’, ‘Jane'), 

("Arnold', 'Steve’), 

("Jones’, 'Bill’), 

("Jones', 'Bob'), 

("Walters', ‘Barbara’)] 


刚 开 始 使 用 lexsort 的 时 候 可 能 会 比较 容易 头 量 ， 这 是 因为 键 的 应 用 顺序 是 从 最 后 一 个 传 
入 的 算 起 的 。 不 难看 出 ，1last_name 是 先 于 first_name 被 应 用 的 。 





注意 :; Series 和 DataFrame 的 sort_index 以 及 Series 的 order 方 法 就 是 通过 这 些 函 数 的 变 体 (它们 还 
必须 考虑 缺失 值 ) 实现 的 。 


其 他 排序 算法 


稳定 的 (stable) 排序 算法 会 保持 等 价 元 素 的 相对 位 置 。 对 于 相对 位 置 具有 实际 意义 的 那 
些 间接 排序 而 言 ， 这 一 点 非常 重要 : 


In [186]: values = np.array(['2:first', '2:second', '1:first', '1:second', '1:third']) 
In [187]: key = np.array([2, 2, 1, 1, 1]) 
In [188]: indexer = key.argsort(kind='mergesort') 


In [189]: indexer 
Out[189]: array([2, 3, 4, 0, 1]) 


In [190]: values.take(indexer) 
Out[190]: 
array(['1:first', '1:second', '1:third', '2:first', '2:second'], 
dtype=" |58') 
mergesort (合并 排序 ) 是 唯一 的 稳定 排序 于 汪 5， 它 保证 有 O(n log n) 的 性 能 (空间 复杂 
度 ) ,但 是 其 平均 性 能 比 默认 的 quicksort (快速 排序 ) 要 差 。 表 12-3 列 出 了 可 用 的 排序 算 
法 及 其 相关 的 性 能 指标 。 大 部 分 用 户 完全 不 需要 知道 这 些 东 西 ， 但 了 解 一 下 总 是 好 的 。 


译注 5; 只 是 这 三 种 里 面 唯一 稳定 的 而 已 。 
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表 12-3: 数组 排序 算法 


kind 速度 ”稳定 性 ”工作 空间 最 坏 的 情况 
"quicksort' 1 否 0 om 
"mergesort' 2 是 n/2 O(nlogn) 
'heapsort' 3 否 0 Onlogm) 








警告， 到 编写 本 书 时 为 止 ，Python 对 象 dtype-object) 数组 可 用 的 排序 算法 只 有 quicksort。 也 
就 是 说 ， 在 处 理 Python 对 象 时 如 果 需 要 用 到 稳定 排 译 ， 那 就 得 自己 想 办 法 了 。 


numpy.searchsorted: 在 有 序数 组 中 查找 元 素 
searchsorted 是 一 个 在 有 序数 组 上 执行 二 分 查找 的 数组 方法 ， 只 要 将 值 插入 到 它 返回 的 
那个 位 置 就 能 维持 数组 的 有 序 性 : 

In [191]: arr = np.array([0, 1, 7, 12, 15]) 


In [192]: arr.searchsorted(9) 
Out[192]: 3 


你 可 能 已 经 想到 了 ， 传 人 一 组 值 就 能 得 到 一 组 索引 : 


In [193]: arr.searchsorted([0, 8, 11, 16]) 
Out[193]: array([0, 3, 3, 5]) 


从 上 面 的 结果 中 可 以 看 出 ， 对 于 元 素 0，searchsorted 会 返回 9。 这 是 因为 其 默认 行为 是 
返回 相等 值 组 的 左 侧 索引 : 
In [194]: arr = np.array([0, 0, 0, 1, 1, 1, 1]) 


In [195]: arr.searchsorted([0, 1]) 
Out[195]: array([0, 3]) 


In [196]: arr.searchsorted([0, 1], side='right') 
Out[196]: array([3, 7]) 





再 来 看 searchsorted 的 另 一 个 用 法 ， 假 设 我 们 有 一 个 数据 数组 (其 中 的 值 在 0 到 10 000 之 
间 ) ， 还 有 一 个 表示 “ 面 元 边界 ”的 数组 ， 我 们 希望 用 它 将 数据 数组 拆 分 开 : 

In [197]: data = np.floor(np.random.uniform(0, 10000, size=50)) 

In [198]: bins = np.array([0, 100, 1000, 5000, 10000]) 


In [199]: data 
Out[199]: 
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array([ 8304.， 4181.， 9352. 4907. 3250., 8546.， 2673.， 6152. 


2774.， 5130., 9553., 4997., 1794., 9688.， 426.， 1612.， 
651.， 8653.， 1695.， 4764., 1052., 4836., 8020., 3479.， 
1513.， 5872.， 8992.， 7656., 4764., 5383., 2319.， 4280.， 
4150.， 8601.， 3946.， 9904., 7286., 9969., 6032.， 4574.， 
8480.， 4298.， 2708.， 7358., 6439., 7916., 3899., 9182.， 
871.， 7973.]) 


然后 ， 为 了 得 到 各 数据 点 所 属 区 间 的 编号 (其 中 1 表示 面 元 [0, 100)) ， 我 们 可 以 直接 使 
用 searchsorted: 


In [200]: labels = bins.searchsorted(data) 


In [201]: labels 
Out[201] : 
arTay([4，3，4，3，3，4，3，4，3，4，4，3，3，4，2，3，2，4，3，3，3，3，4， 
3，3，4，4，4，3，4，3，3，3，4，3，4，4，4，4，3，4，3，3，4，4，4， 
3, 4, 2, 4]) 


通过 pandas 的 groupby 使 用 该 结果 即 可 非常 轻松 地 对 原 数据 集 进行 拆 分 : 
In [202]: Series(data).groupby(labels).mean() 
Out[202]: 
2 649.333333 


3 3411.521739 
4 7935.041667 


注意 ， 其 实 NumPy 的 digitize 函 数 也 可 用 于 计算 这 种 面 元 编号 : 


In [203]: np.digitize(data, bins) 





Out[203]: 

array([4, 3, 4, 3, 3, 4, 3, 4, 3, 4, 4, 3, 3, 4, 2, 3, 2, 4, 3, 3, 3, 3, 4, 
3, 3, 4 4, 4, 3, 4, 3 3, 3, 4, 3, 4, 4, 4 4, 3, 4, 3, 3, 4, 4, 4 
3, 4, 2, 4]) 


NumPy 的 matrix 类 


跟 其 他 面向 矩阵 运算 和 线性 代数 的 语言 相 比 (如 MATLAB、GAUSS 等 ) ，NumPy 的 
线性 代数 语法 往往 比较 繁琐 。 其 中 一 个 原因 是 ， 和 矩阵 操作 需要 用 到 numpy.dot。 再 加 
上 NumPy 的 索引 语义 也 不 同 ， 所 以 有 时 不 那么 容易 将 代码 移植 到 Python 主演 5。 从 二 维 
数组 中 选取 一 行 (比如 X[1， :]) 或 一 列 (如 X[:，1]) 将 会 产生 一 个 一 维 数组 ， 而 在 
MATLAB 中 则 是 二 维 数组 。 





X= np.array([[ 8.82768214, 3.82222409，-1.14276475， 2.04411587]， 


In [204]: 
[ 3.82222409, 6.75272284, 0.83909108， 2.08293758]， 





译注 6: 原文 有 歧义 ,根据 上 下 文 的 意思 ， 应 该 是 说 不 容易 把 其 他 语言 的 代码 移植 过 来 。 
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[-1.14276475, 0.83909108， 5.01690521， 0.79573241], 
[ 2.04411587， 2.08293758, 0.79573241， 6.24095859]]) 


In [205]: X[:，o] # 一 维 的 
Out[205]: array([ 8.8277, 3.8222, -1.1428, 2.0441]) 


In [206]: y = X[:，:1] # 切片 操作 可 产生 二 维 结果 


In [207]: X 
Out[207]: 
array([[ 8.8277, 3.8222, -1.1428, 2.0441], 
[ 3.8222, 6.7527, 0.8391, 2.0829], 
[-1.1428, 0.8391, 5.0169, 0.7957], 
2.0441， 2.0829， 0.7957， 6.241 ]]) 


In [208]: y 
Out[208] : 
array([[ 8.8277]， 
3.8222], 
[-1.1428], 
[ 2.0441]]) 


在 这 个 问题 中 ， 积 y" x y 会 被 表达 成 下 面 这 个 样子 : 





In [209]: np.dot(y.T, np.dot(X, y)) 
Out[209]: array([[ 1195.468]]) 


为 了 不 用 编写 大 量 的 矩阵 运算 代码 ，NumPy 提 供 了 一 个 matrix 类 ， 其 索引 行为 更 像 
MATLAB: 单行 或 列 会 以 二 维 形式 返回 ， 且 使 用 星 号 (*) 的 乘法 直接 就 是 矩阵 乘法 。 
上 面 那些 运算 用 numpy.matrix 来 编写 的 话 ， 应 该 是 下 面 这 个 样子 ， 


In [210]: Xm = np.matrix(X) 
In [211]: ym = Xm[:, 0] 


In [212]: Xm 

Out[212]: 

matrix([[ 8.8277, 3.8222, -1.1428, 2.0441], 
[ 3.8222, 6.7527, 0.8391, 2.0829], 
[-1.1428, 0.8391, 5.0169, 0.7957], 
[ 2.0441, 2.0829, 0.7957， 6.241 ]]) 


In [213]: ym 
Out[213]: 

matrix([[ 8.8277], 
[ 3.8222], 
[-1.1428], 
[ 2.0441]]) 


In [214]: ym.T * Xm * ym 
Out[214]: matrix([[ 1195.468]]) 


matrix 还 有 一 个 特殊 的 属性 I， 其 功能 是 返回 矩阵 的 逆 : 
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In [215]: Xm.I * X 






Out[215]: 

matrix([[ -0.，-0.]， 
[ 0 
[ o. 1.，0.] 
[ 90.，1.]]) 





我 不 建议 用 numpy.matrix 替 代 正 规 的 ndarray， 因 为 它们 的 应 用 面 较 窗 。 对 于 个 别 带 
有 大 量 线性 代数 运算 的 函数 ， 可 以 将 函数 参数 转换 为 natrix 类 型 ， 然 后 在 返回 之 前 用 
np.asarray (不 会 复制 任何 数据 ) 将 其 转换 回 正规 的 ndarray 。 


高 级 数组 输入 输出 


我 在 第 4 章 中 讲 过 ，np.save 和 np.1oad 可 用 于 读 写 磁盘 上 以 二 进 制 格式 存储 的 数组 。 其 
实 还 有 一 些 工具 可 用 于 更 为 复杂 的 场景 。 尤 其 是 内 存 映 像 (memory map) ， 它 使 你 能 处 
理 在 内 存 中 放 不 下 的 数据 集 。 


内 存 映像 文件 
内 存 映像 文件 是 一 种 将 磁盘 上 的 非常 大 的 二 进 制 数据 文件 当做 内 存 中 的 数组 进行 处 理 的 
方式 。NumPy 实 现 了 一 个 类 似 于 ndarray 的 memmap 对 象 ， 它 允许 将 大 文件 分 成 小 段 进行 读 
写 ， 而 不 是 一 次 性 将 整个 数组 读 入 内 存 。memmap 也 拥有 跟 普通 数组 一 样 的 方法 ， 因 此 ， 
基本 上 只 要 是 能 用 于 ndarray 的 算法 就 也 能 用 于 memmap。 
使 用 函数 np.memmap 并 传人 一 个 文件 路 径 、 数 据 类 型 、 形 状 以 及 文件 模式 ， 即 可 创建 一 个 
新 的 memmap: 
In [216]: mmap = np.memmap("mymmap'"，dtype='float64'，mode='w+"，shape=(10000，10000)) 
In [217]: mmap 


Out[217]: 
memmap([ 


ooe 





二 0.]， 


0.，.。…. 


ee 


bs 
对 memmap 切 片 将 会 返回 磁盘 上 的 数据 的 视图 : 


In [218]: section = mmap[:5] 


如 果 将 数据 赋值 给 这 些 视图 : 数据 会 先 被 缓存 在 内 存 中 (就 像 是 Python 的 文件 对 象 ) ， 
调用 flush 即 可 将 其 写 入 磁盘 。 
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In [219]: section[:] = np.random.randn(5, 10000) 
In [220]: mmap.flush() 


In [221]: mmap 

Out[221]: 

memmap([[-0.1614, -0.1768, 0.422 ,..., -0.2195, -0.1256, -0.4012], 
[ 0.4898, -2.2219, -0.7684, ..., -2.3517, -1.0782, 1.3208] ， 

[-0.6875, 1.6901, -0.7444, ..., -1.4218, -0.0509, 1.2224], 


[0 2 © "Ne » 0. ， 0 ]， 
[0. ,0 i ， 0 ， 0 ]， 
[0. ,0 天 ， 0 ，0，]]) 


In [222]: del mmap 


只 要 某 个 内 存 映像 超出 了 作用 域 ， 它 就 会 被 垃圾 回收 器 回收 ， 之 前 对 其 所 做 的 任何 修改 
都 会 被 写 人 磁盘 。 当 打开 一 个 已 经 存在 的 内 存 映 像 时 ， 仍 然 需 要 指明 数据 类 型 和 形状 ， 
因为 磁盘 上 的 那个 文件 只 是 一 块 二 进 制 数据 而 已 ， 没 有 任何 元 数据 ; 


In [223]: mmap = np.memmap('mymmap'，dtype='float64'，shape=(10000，10000)) 


In [224]: mmap 

Out[224]: 

memmap([[-0.1614, -0.1768, 0.422 ， 
[ 0.4898, -2.2219, -0.7684, 
[-0.6875, 1.6901, -0.7444, 


-0.2195, -0.1256, -0.4012], 
-2.3517, -1.0782, 1.3208], 
» -1.4218, -0.0509, 1.2224], 





[as 0 0 ‘09 0. ，0. ，0 
Le 0 5 oi ，0. ，0. J]】, 
{0,0 ， 0 ，0 s 0. ，0 


由 于 内 存 映 像 其 实 就 是 一 个 存放 在 磁盘 上 的 ndarray， 所 以 完全 可 以 使 用 前 面 介绍 的 结构 
化 dtype。 


HDF5 及 其 他 数组 存储 方式 

PyTables 和 h5py 这 两 个 Python 项 目 可 以 将 NumPy 的 数组 数据 存储 为 高 效 且 可 压缩 的 HDF5 
格式 (HDF 意思 是 “层次 化 数据 格式 ”) 。 你 可 以 安全 地 将 好 几 百 GB 其 至 TB 的 数据 存 
储 为 HDF5 格 式 。 很 遗憾 ， 这 些 库 的 用 法 超出 了 本 书 的 范围 


PyTables 提 供 了 一 些 用 于 结构 化 数组 的 高 级 查询 功能 ， 而 且 还 能 添加 列 索引 以 提升 查询 
速度 。 这 跟 关 系 型 数据 库 所 提供 的 表 索 引 功能 非常 类 似 。 
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性 能 建议 


使 用 NumPy 的 代码 的 性 能 一 般 都 很 不 错 ， 因 为 数组 运算 一 般 都 比 纯 Python 循 环 快 得 多 。 
下 面 大 致 列 出 了 一 些 需要 注意 的 事项 : 

。 ”将 Python 循环 和 条 件 逻 辑 转换 为 数组 运算 和 布尔 数组 运算 。 

。 ”尽量 使 用 广播 。 

。 ”避免 复制 数据 ， 尽 量 使 用 数组 视图 ( 即 切片 ) 。 

。 ”利用 ufunc 及 其 各 种 方法 。 


如 果 单 用 NumPy 无 论 如 何 都 达 不 到 所 需 的 性 能 指标 ， 就 可 以 考虑 一 下 用 C、Fortran 
或 Cython (等 下 会 稍微 介绍 一 下 ) 来 编写 代码 。 我 自己 在 工作 中 经 常会 用 到 Cython 
(http://cython.org) ， 因 为 它 不 用 花费 我 太 多 精力 就 能 得 到 C 语 言 那样 的 性 能 。 


连续 内 存 的 重要 性 

虽然 这 个 话题 有 点 超出 本 书 的 范围 ， 但 还 是 要 提 一 下 ， 因 为 在 某 些 应 用 场景 中 ， 数 组 的 
内 存 布局 可 以 对 计算 速度 造成 极 大 的 影响 。 这 是 因为 性 能 差别 在 一 定 程度 上 跟 CPU 的 高 
速 缓存 (cache) 体系 有 关 。 运 算 过 程 中 访问 连续 内 存 块 ( 例 如， 对 以 C 顺 序 存储 的 数组 
的 行 求 和 ) 一 般 是 最 快 的 ， 因 为 内 存 子 系统 会 将 适当 的 内 存 块 缓存 到 超 高 速 的 L1 或 L2 
CPU Cache 中 许配 。 此 外 ，NumPy 的 C 语 言 基础 代码 ( 某 些 ) 对 连续 存储 的 情况 进行 了 优 
化 处 理 ， 这 样 就 能 避免 一 些 跨越 式 的 内 存 访问 。 


一 个 数组 的 内 存 布局 是 连续 的 ， 就 是 说 元 素 是 以 它们 在 数组 中 出 现 的 顺序 ( 即 Fortran 型 
( 列 优先 ) 或 C 型 ( 行 优先 ) ) 存储 在 内 存 中 的 。 默 认 情况 下 ，NumPy 数 组 是 以 C 型 连续 
的 方式 创建 的 。 列 优先 的 数组 (比如 C 型 连续 数组 的 转 置 ) 也 被 称 为 Fortran 型 连续 。 通 
过 ndarray 的 flags 属 性 即 可 查看 这 些 信息 : 

In [227]: arr_c¢ = np.ones((1000, 1000), order="C') 


In [228]: arr_f = np.ones((1000, 1000), order="F') 


In [229]: arr_c.flags In [230]: arr f.flags 

Out[229] : out[230] : 
C_CONTIGUOUS : True C_CONTIGUOUS : False 
F_CONTIGUOUS : False F_CONTIGUOUS : True 
OWNDATA : True OWNDATA : True 


译注 7; 这 里 主要 考虑 的 是 预 读 机 制 以 及 线 存 块 失效 率 。 由 于 这 个 存储 层次 是 纯 硬件 实现 的 ， 谁 的 
程序 都 控制 不 了 ， 所 以 数据 最 好 连续 存储 。 





NumpPy 高 级 应 用 | 397 


WRITEABLE : True WRITEABLE : True 
ALIGNED : True ALIGNED : True 
UPDATEIFCOPY : False UPDATEIFCOPY : False 


In [231]: arr f.flags.f_contiguous 
Out[231]: True 


在 这 个 例子 中 ， 对 两 个 数组 的 行进 行 求 和 计算 ， 理论 上 说 ，arr_c 会 比 arr_f 快 ， 因 为 
arr_c 的 行 在 内 存 中 是 连续 的 。 我 们 可 以 在 IPython 中 用 %timeit 来 确认 一 下 : 


In [232]: %timeit arrc.sum(1) 
1000 loops，best of 3: 1.33 ms per loop 


In [233]: %timeit arr_f.sum(1) 
100 loops，best of 3: 8.75 ms per loop 


如 果 想 从 NumPy 中 提升 性 能 ， 这 里 就 应 该 是 下 手 的 地 方 。 如 果 数 组 的 内 存 顺 序 不 符合 你 
的 要 求 ， 使 用 copy 并 传人 'C' 或 'F' 即 可 解决 该 问题 : 


In [234]: arr_f.copy('C').flags 

Out[234]: 
C_CONTIGUOUS : True 
F_CONTIGUOUS : False 
OWNDATA : True 
WRITEABLE : True 
ALIGNED : True 
UPDATEIFCOPY : False 





注意 ， 在 构造 数组 的 视图 时 ， 其 结果 不 一 定 是 连续 的 : 


In [235]: arr_c[:50] .flags.contiguous In [236]: arr_c[:, :50].flags 
Out[235]: True Out[236]: 
C_CONTIGUOUS : False 
F_CONTIGUOUS : False 
OWNDATA : False 
WRITEABLE : True 
ALIGNED : True 
UPDATEIFCOPY : False 


其 他 加 速 手段 : Cython、f2py、C 

近年 来 ，Cython 项 目 (http://cython.org) 已 经 受到 了 许多 Python 程 序 员 的 认可 ， 用 它 实 
现 的 代码 运行 速度 很 快 (可 能 需要 与 C 或 C++ 库 交互 ， 但 无 需 编 写 纯粹 的 C 代 码 ) 。 你 可 
以 将 Cython 看 成 是 带 有 静态 类 型 并 能 代 入 C 函 数 的 python。 下面 这 个 简单 的 Cython 函 数 
用 于 对 一 个 一 维 数组 的 所 有 元 素 求 和 : 


from numpy cimport ndarray，float64 t 
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def sum_elements(ndarray[float64 t] arr): 
cdef py_ssize t i, n = len(arr) 
cdef float64 t result = 0 


for i in range(n): 
result += arr[i] 


return result 


Cython 处 理 这 段 代 码 时 ， 先 将 其 翻译 为 C 代 码 ， 然 后 编译 这 些 C 代 码 并 创建 一 个 Python 扩 
展 。Cython 是 一 种 诱 人 的 高 性 能 计算 方式 ， 因 为 编写 Cython 代 码 只 比 编写 纯 Python 代 码 
多 花 一 点 时 间 而 已 ， 而 且 还 能 跟 NumPy 紧 密 结合 。 一 般 的 工作 流程 是 ， 得 到 能 在 Python 
中 运行 的 算法 ， 然 后 再 将 其 翻译 为 Cython (只 需 添 加 类 型 定义 并 完成 一 些 其 他 必要 的 工 
作 即 可 ) 。 更 多 信息 请 参考 该 项 目的 文档 。 


其 他 有 关 NumPy 的 高 性 能 代码 编写 手段 还 有 f2py (FORTRAN 77 和 90 的 包装 器 生成 器 ) 
以 及 利用 纯 C 语 言 编写 Python 扩展 。 
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附录 A 
Python 语言 精 





知识 是 一 座 宝库 ， 而 实践 就 是 开启 这 座 宝库 的 钥匙 。 


一 一 Thomas Fuller 


人 们 常常 问 我 要 有 关 学 习 Python 数 据 处 理 方面 的 优质 资源 。 虽 然 市 面 上 有 许多 非常 不 错 
的 讲解 Python 语言 的 图 书 ， 但 我 在 推荐 的 时 候 经 常 还 是 会 犹 耶 不 决 ， 因 为 它们 都 是 针对 
普通 读者 的 ， 没 有 为 那些 只 想 “加 载 点 儿 数据 ， 做 点 计算 ， 再 画 点 儿 图 ”的 读者 做 专门 
的 裁剪 。 其 实 有 几 本 书 确 实 是 关于 Python 科学 计算 编程 的 ， 但 它们 是 专 为 数值 计算 和 工 
程 应 用 而 设计 的 ， 解 微分 方程 、 计 算 积分 、 做 蒙特 卡 罗 模拟 ， 以 及 其 他 各 种 数学 方面 的 
主题 ,但 就 是 没有 数据 分 析 和 统计 方面 的 。 由 于 本 书 的 目的 是 让 大 家 成 为 Python 数 据 处 
理 方面 的 熟 手 ， 所 以 我 认为 有 必要 花 点 时 间 从 结构 化 和 非 结构 化 数据 处 理 的 角度 重点 介 
绍 一 些 有 关 Python 内 置 数据 结构 和 库 的 最 重要 的 功能 。 我 将 只 介绍 一 些 大 致 的 信息 ， 只 
要 对 本 书 的 学 习 够 用 就 行 。 


本 附录 并 没有 打算 成 为 Python 语言 的 详尽 指南 ， 只 会 对 书 中 反复 用 到 的 那些 功能 做 一 
个 基本 的 概述 。 对 于 Python 新 手 而 言 ， 我 建议 在 读 完 本 附录 后 再 看 看 Python 的 官方 教程 
(http://docs.python.org) ， 最 好 能 再 读 一 两 本 有 关 Python 通 用 编程 方面 的 优质 图 书 。 以 
我 的 观点 来 看 ， 如 果 只 需要 用 Python 进行 高 效 的 数据 分 析 工作 ， 根 本 就 设 必要 非得 成 为 
通用 软件 编程 方面 的 专家 不 可 。 我 强烈 建议 你 用 IPython 实 验 所 有 的 代码 示例 ， 并 查看 各 
种 类 型 、 函 数 以 及 方法 的 文档 。 注 意 ， 这 些 例子 中 所 用 到 的 一 些 代码 暂时 还 没 必要 解释 
得 那么 详细 。 


本 书 主要 关注 的 是 能 够 处 理 大 数据 集 的 高 性 能 数组 计算 工具 。 为 了 使 用 这 些 工具 ， 你 常 
常 得 先 把 那些 乱七八糟 的 数据 处 理 成 漂亮 点 的 结构 化 形式 。 好 在 Python 是 一 种 最 易 生 手 
的 数据 整形 语言 。 你 的 Python 语 言 能 力 越 强 ， 数 据 分 析 的 准备 工作 就 越 简 单 。 


Python 解释 器 


Python 是 一 种 解释 型 语言 。Python 解 释 器 是 通过 “一 次 执行 一 条 语句 ”的 方式 运行 程序 
的 。 标 准 的 交互 式 Python 解释 器 可 以 在 命令 行 上 通过 python 命 令 启动 ; 

$ python 

Python 2.7.2 (default, Oct 4 2011, 20:06:09) 

[ccc 4.6.1] on linux2 

Type "help", "copyright", "credits" or "license”for more information. 

>2>>a=5 

>»>> print a 

5 
上 面 的 “>>>” 是 提示 符 ， 你 可 以 在 那里 输入 表达 式 。 要 退出 Python 解 释 器 并 返回 命令 
提示 符 , 输入 exit() 或 按 下 Ctrl-D 即 可 。 


运行 Python 程 序 的 方式 很 简单 ， 只 需 调用 python 并 将 一 个 .py 文件 作为 其 第 一 个 参数 即 
可 。 假 设 我 们 已 经 创建 了 一 个 hello_wor1d.py， 其 内 容 如 下 : 


print ‘Hello world' 
只 需 在 终端 上 输入 如 下 命令 即 可 运行 : 


$ python hello_world.py 

Hello world 
虽然 许多 Python 程序 员 用 这 种 方式 执行 他 们 的 所 有 Python 代码 ， 但 Python 科学 计算 程 
序 员 则 更 趋向 于 使 用 [Python (一 种 加 强 的 交互 式 Python 解释 器 ) 。 第 3 章 专门 介绍 了 
IPython 系 统 。 通 过 使 用 %run 命 令 ，IPython 会 在 同一 个 进程 中 执行 指定 文件 中 的 代码 。 
因此 ， 在 这 些 代码 执行 完毕 之 后 ， 你 就 可 以 通过 交互 的 方式 研究 其 结果 了 。 

$ ipython 


Python 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17:51) 
Type "copyright", "credits" or "license" for more information. 


IPython 0.12 -- An enhanced Interactive Python. 

? -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

help -> Python's own help system. 

object? -> Details about ‘object’, use ‘object??' for extra details. 


In [1]: %run hello world.py 
Hello world 


In [2]: 


默认 的 IPython 提 示 符 采用 的 是 一 种 编号 的 风格 (如 In [2]:) ， 而 不 是 标准 的 “>>>” 
提示 符 。 
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基础 知识 


语言 语义 


Python 语言 的 设计 特点 是 重视 可 读 性 、 简 洁 性 以 及 明确 性 。 有 些 人 甚至 将 它 看 做 “可 执 
行 的 伪 码 ”。 


缩 进 ， 而 不 是 大 括号 
Python 是 通过 空白 符 ( 制 表 符 或 空格 ) 来 组 织 代码 的 ， 不 像 其 他 语言 (如 R、C++、 
Java、Perl 等 ) 用 的 是 大 括号 。 以 for 循 环 为 例 ， 要 实现 前 面 说 的 那个 快速 排序 算法 : 
for x in array: 
if x < pivot: 
less.append(x) 


else: 
Breater.append(x) 


冒号 表示 一 段 缩 进 代码 块 的 开始 ， 其 后 的 所 有 代码 都 必须 缩 进 相同 的 量 ， 直 到 代码 块 结 
束 为 止 。 在 别 的 语言 中 ， 你 可 能 会 看 到 下 面 这 样 的 东西 : 
for x in array { 
if x < pivot { 
less.append(x) 


} else{ 
greater.append(x) 
} 


} 


使 用 空白 符 的 主要 好 处 是 ， 它 能 使 大 部 分 Python 代 码 在 外 观 上 看 起 来 差不多 。 也 就 是 
说 ， 当 你 阅读 某 段 不 是 自己 编写 的 (或 一 年 前 匆忙 编写 的 ) 代码 时 不 怎么 容易 出 现 “ 认 
知 失调 ”。 在 那些 空白 符 无 实际 意义 的 语言 中 ， 你 可 能 会 发 现 一 些 格式 不 统一 的 代码 ， 
比如 : 

for x in array 


‘ 


if x < pivot 
less.append(x) 


€lse 
{ 
Breater.append(x) 
} 
} 


无 论 对 它 是 爱 是 恨 ， 反 正 有 意义 的 空白 符 就 是 Python 程 序 员 的 生活 现实 。 再 说 了 ， 以 我 
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的 经 验 来 看 ， 它 能 使 Python 代码 具有 更 高 的 可 读 性 (至 少 比 我 用 过 其 他 语言 要 高 ) 。 虽 
然 第 一 眼看 上 去 会 觉得 比较 火星 ， 但 我 相信 不 用 多 久 你 就 会 喜欢 上 它 的 。 





注意 : 我 强烈 建议 用 4 个 空格 作为 默认 缩 进 量 ， 这 样 ， 你 的 编辑 器 就 会 将 制 表 符 赫 换 为 4 个 空格 。 
许多 文本 编辑 器 都 有 一 个 这 样 的 设置 项 。 有 些 人 喜欢 用 制 表 符 或 其 他 数量 的 空格 ， 但 用 2 个 
空格 的 情况 非常 少见 。4 个 空格 其 实 就 是 一 种 标准 ， 绝 大 部 分 Python 程序 员 都 这 么 用 。 所 以 
我 建议 : 除非 有 特殊 的 原因 ， 否 则 就 用 4 个 空格 吧 。 





到 目前 为 止 ， 你 可 以 看 到 ，Python 语 句 还 能 不 以 分 号 结束 。 不 过 分 号 还 是 可 以 用 的 ， 比 
如 在 一 行 上 分 隔 多 条 语句 : 


a=5;b=6;c=7 


在 一 行 上 放置 多 条 语句 的 做 法 在 Python 中 一 般 是 不 推荐 的 ， 因 为 这 往往 会 使 代码 的 可 读 


万 物 皆 对 象 

Python 语言 的 一 个 重要 特点 就 是 其 对 象 模型 的 一 致 性 。Python 解 释 器 中 的 任何 数值 、 字 
符 串 、 数 据 结 构 、 函 数 、 类 、 模 块 等 都 待 在 它们 自己 的 “盒子 ”里 ， 而 这 个 “盒子 ”也 
就 是 Python 对 象 。 每 个 对 象 都 有 一 个 与 之 相关 的 类 型 (比如 字符 串 或 函数 ) 以 及 内 部 数 
据 。 在 实际 工作 当中 ， 这 使 得 Python 语言 变 得 非常 灵活 ， 因 为 即使 是 函数 也 能 被 当做 其 
他 对 象 那样 处 理 。 


注释 
任何 前 缀 为 井 号 (#) 的 文本 都 会 被 Python 解释 器 忽略 掉 。 这 通常 用 于 在 代码 中 添加 注 
释 。 有 时 你 可 能 只 是 想 排除 不 运行 某 些 代码 块 而 不 想 删除 它们 。 最 简单 的 办 法 就 是 注释 
掉 那 些 代码 ; 
results = [] 
for line in file_handle: 
# 暂时 保留 空 行 
# if len(line) == 0: 
# continue 
results.append(line.replace('foo', ‘bar')) 


函数 调用 和 对 象 方法 调用 
函数 的 调用 需要 用 到 圆 括号 以 及 0 个 或 多 个 参数 ， 此 外 还 可 以 将 返回 值 赋值 给 一 个 变 
量 : 


result = f(x, y, z) 
8() 
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几乎 所 有 的 Python 对 象 都 有 一 些 附属 函数 (也 就 是 方法 ) ， 它 们 可 以 访问 该 对 象 的 内 部 
数据 。 方 法 的 调用 是 这 样 写 的 : 


obj.some_method(x, y, z) 

函数 既 可 以 接受 位 置 参 数 ， 也 可 以 接受 关键 字 参 数 : 
result = f(a，b，c，d=5，e='foo') 

稍 后 将 详细 介绍 这 个 内 容 。 


变量 和 按 引 用 传递 


在 Python 中 对 变量 赋值 时 ， 你 其 实 是 在 创建 等 号 右 侧 对 象 的 一 个 引用 。 用 实际 的 例子 来 
说 吧 ， 看 看 下 面 这 个 整数 列表 : 


In [241]: a = [1, 2, 3] 
假如 我 们 将 a 赋值 给 一 个 新 变量 b: 
In [242]: b = a 


在 某 些 语言 中 ， 该 赋值 过 程 将 会 导致 数据 [1，2，3] 被 复制 。 而 在 Python 中 ，a 和 b 现 在 都 
指向 同一 个 对 象 ， 即 原始 列表 [1，2， 3] (如 图 A-1 所 示 ) 。 你 可 以 自己 验证 一 下 : 对 a 
添加 一 个 元 素 ， 然 后 看 看 b 的 情况 。 

In [243]: a.append(4) 


In [244]: b 
Out[244]: [1, 2, 3, 4] 


Fe 
| 二 


b -一 -一 一 一 


图 A-1: 指向 同一 个 对 象 的 两 个 引用 


理解 Python 引用 的 语义 以 及 数据 复制 的 条 件 、 方 式 、 
数据 集 非常 重要 。 








等 知识 对 于 在 Python 中 处 理 大 
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注意 ， 赋 值 (assignment) 操作 也 叫做 绑 定 (binding) ， 因 为 我 们 其 实 是 将 一 个 名 称 和 一 个 对 象 
绑 定 到 一 起 。 已 经 财 过 值 的 变量 名 有 时 也 被 称 为 已 绑 定 变量 (bound variable) 。 


当 你 将 对 象 以 参数 的 形式 传人 函数 时 ， 其 实 只 是 传人 了 一 个 引用 而 已 ， 不 会 发 生 任何 复 
制 。 因 此 ，Python 被 称 为 是 按 引用 传递 的 ， 而 某 些 其 他 的 语言 则 既 支持 按 值 传递 (创建 
副本 ) 又 支持 按 引用 传递 。 也 就 是 说 ，Python 函 数 可 以 修改 其 参数 的 内 容 。 假 设 我 们 有 
下 面 这 样 的 一 个 函数 : 





def append_element(some_list, element): 
some_list.append(element) 


根据 刚才 所 说 的 ， 下 面 这 样 的 结果 应 该 是 在 意料 之 中 的 : 
In [2]: data = [1, 2, 3] 
In [3]: append_element(data, 4) 


In [4]: data 
Out[4]: [1, 2, 3, 4] 


动态 引用 ， 强 类 型 
跟 许 多 编译 型 语言 (如 Java 和 C++) 相反 ，Python 中 的 对 象 引 用 没有 与 之 关联 的 类 型 信 
息 。 下 面 这 些 代码 不 会 有 什么 问题 : 










In [247]: 

In [248]: 

Out[248]: 
变量 其 实 就 是 对 象 在 特定 命名 空间 中 的 名 称 而 已 。 对 象 的 类 型 信息 是 保存 在 它 自己 内 部 
的 。 有些 人 可 能 会 轻率 地 认为 Python 不 是 一 种 “类 型 化 语言 ”。 其 实 不 是 这 样 的 。 看 看 
下 面 这 个 例子 : 

In [249]: '5" + 5 


TypeError Traceback (most recent call last) 
<ipython-input-249-f9dbf5fob234> in <module>() 
=---->1 "5 +5 


TypeError: cannot concatenate 'str' and 'int，objects 


在 有 些 语 言 中 (比如 Visual Basic) ,字符 串 '5' 可 能 会 被 隐 式 地 转换 为 整数 ， 于 是 就 会 
得 到 10。 而 在 另 一 些 语言 中 (比如 JavaScript) ， 整 数 5 可 能 会 被 转换 为 字符 串 ， 于 是 就 
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会 得 到 '55' 。 而 在 这 一 点 上 ，Python 可 以 被 认为 是 一 种 强 类 型 语言 ， 也 就 是 说 ， 所 有 对 
象 都 有 一 个 特定 的 类 型 (或 类 ) ， 隐 式 转换 只 在 很 明显 的 情况 下 才 会 发 生 ， 比 如 下 面 这 
样 ， 

In [250]: a = 4.5 

In [251]: b = 2 

# 这 个 操作 是 字符 串 格式 化 ， 稍 后 介绍 

In [252]: print 'a is %s, b is %s' % (type(a), type(b)) 

a is <type "float'>，b is <type “int'> 


In [253]:a/b 
Out[253]: 2.25 


了 解 对 象 的 类 型 是 很 重要 的 。 要 想 编写 能 够 处 理 多 个 不 同类 型 输入 的 函数 就 必须 了 解 
有 关 类 型 的 知识 。 通 过 isinstance 函 数 ， 你 可 以 检查 一 个 对 象 是 否 是 某 个 特定 类 型 的 实 
例 ; 

In [254]:a=5 


In [255]: isinstance(a, int) 
Out[255]: True 


isinstance 可 以 接受 由 类 型 组 成 的 元 组 。 如 果 想 检查 某 个 对 象 的 类 型 是 否 属于 元 组 中 所 
指定 的 那些 ， 


In [256]: a = 5; b= 4.5 





Out[258]: True 


属性 和 方法 
Python 中 的 对 象 通常 都 既 有 属性 (attribute， 即 存储 在 该 对 象 “内 部 ”的 其 他 Python 对 
象 ) 又 有 方法 (method， 与 该 对 象 有 关 的 能 够 访问 其 内 部 数据 的 函数 ) 。 它 们 都 能 通过 
obj.attribute_name 这 样 的 语法 进行 访问 : 

In [1]: a = 'foo' 


In [2]: a.<Tab> 


a.capitalize a.format a.isupper a.rindex a.strip 
a.center a.index a.join a.rjust a.swapcase 
a.count a.isalnum aljust arpartition a.title 
a.decode a.isalpha alower a.rsplit a.translate 
a.encode a.isdigit a.lstrip a.rstrip aupper 
aendswith a.islower apartition a.split a.zfill 
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a.expandtabs 。 a.isspace a.replace a.splitlines 
a.find aistitle a.rfind a.startswith 


属性 和 方法 还 可 以 利用 getattr 函 数 通过 名 称 进行 访问 : 

»»>> getattr(a, 'split') 

<function split> 
虽然 本 书 没 怎么 用 到 getattr 函 数 以 及 与 之 相关 的 hasattr 和 setattr 函 数 ， 但 是 它们 还 是 
很 实用 的 ， 尤 其 是 在 编写 通用 的 、 可 复 用 的 代码 时 。 


“了 鸭子 ”类 型 下 
- 般 来 说 ， 你 可 能 不 会 关心 对 象 的 类 型 ， 而 只 是 想 知道 它 到 底 有 没有 某 些 方法 或 行为 。 
比如 说 ， 只 要 一 个 对 象 实现 了 迭代 器 协议 (iterator protocol) ， 你 就 可 以 确认 它 是 可 和 迭 
代 的 。 对 于 大 部 分 对 象 而 言 ， 这 就 意味 着 它 拥 有 一 个 _iter_ 魔术 方法 。 当 然 ， 还 有 一 
个 更 好 一 些 的 验证 办 法 ， 即 尝试 使 用 iter 函 数 : 
def isiterable(obj): 
try: 
iter(obj) 
return True 


except TypeError: # 不 可 迭代 
return False 





对 于 字符 串 以 及 大 部 分 Python 集合 类 型 ， 该 函数 会 返回 True: 


In [260]: isiterable('a string') In [261]: isiterable([1, 2, 3]) 
Out[260]: True Out[261]: True 


In [262]: isiterable(5) 

out[262]: False 
我 常常 在 编写 需要 处 理 多 类 型 输入 的 函数 时 用 到 这 个 功能 。 还 有 一 种 常见 的 应 用 场景 ; 
编写 可 以 接受 任何 序列 (列表 、 元 组 、ndarray) 或 迭代 器 的 函数 。 你 可 以 先 检查 对 象 是 
不 是 列表 (或 NumPy 数 组 ) ， 如 果 不 是 ， 就 将 其 转换 成 是 : 

if not isinstance(x, list) and isiterable(x): 

x = list(x) 

引入 (import) 


在 Python 中 ， 模 块 (module) 就 是 一 个 含有 函数 和 变量 定义 以 及 从 其 他 .py 文件 引入 的 
此 类 东西 的 .py 文件 。 假 设 我 人 有 下 面 这 样 一 个 模块 : 


译注 1: 这 里 只 是 作者 起 的 名 字 而 已 ， 不 必 介 怀 ， 你 完全 可 以 给 它 起 个 “ 真 命 天 子 类 型 ”之 类 的 名 
字 。 其 实 它 是 一 个 哲学 和 远 辑 学 概念 ， 就 是 说 “对 于 一 只 鸟 类 动物 ， 不 用 管 它 到 底 是 不 是 
哆 子 ， 只 要 看 它 像 不 像 鸣 子 就 可 以 了 ”。 
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# some_module.py 
PI = 3.14159 


def f(x): 
ITeturn xX + 2 


def g(a, b): 
return a+b 


如 果 想 要 引入 some_module.py 中 定义 的 变量 和 函数 ， 我 们 可 以 在 同一 个 目录 下 创建 另 一 
个 文件 : 

import some_module 

result = some_ module.f(5) 

pi = some_module.PI 


还 可 以 写成 这 样 : 


from some_module import f, g, PI 
result = g(5, PI) 


通过 as 关 键 字 ， 你 可 以 引入 不 同 的 变量 名 汪汪 ?， 


import some_module as sm 
from some_module import PI as pi, g as gf 


I1 = sm.f(pi) 
r2 = gf(6, pi) 
二 元 运算 符 和 比较 运算 符 


大 部 分 二 元 数学 运算 和 比较 运算 都 跟 我 们 想象 中 的 一 样 : 


In [264]: 12 + 21.5 
Out[264]: 33.5 





表 A-1 中 列 出 了 所 有 可 用 的 二 元 运算 符 。 


要 判断 两 个 引用 是 否 指向 同一 个 对 象 ， 可 以 使 用 is 关 键 字 。 如 果 想 判断 两 个 引用 是 否 不 
是 指向 同一 个 对 象 ， 则 可 以 使 用 is not: 


In [266]: a = [1, 2, 3] 


In [267]: b= a 


译注 2: 也 就 是 定义 别名 。 
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# 注意 ，list 函 数 始终 会 创建 新 列表 
In [268]: c = list(a) 


In [269]: a is b 
Out[269]: True 


In [270]: a is not c 
Out[270]: True 


注意 ， 这 跟 比较 运算 “==” 不 是 一 回 事 ， 因 为 对 于 上 面 这 个 情况 ， 我 们 将 会 得 到 : 


In [271]: a == 上 
out[271]: True 


is 和 is not 常 常用 于 判断 变量 是 否 为 None， 因 为 None 的 实例 只 有 一 个 : 
In [272]: a = None 


In [273]: a is None 
Out[273]: True 








表 A-1: 二 元 运算 符 

运算 说 明 

a+b a 加 b 

a-b a 减 b 

a*b a 乘 以 b 

a/b a 除 以 b 

ab a 除 以 b 后 向 下 圆 整 ， 丢 弃 小 数 部 分 

ab a 的 b 次 方 

a&b 如 果 a 和 b 均 为 True， 则 结果 为 True。 对 于 整数 ， 执 行 按 位 与 操作 

alb 如 果 a 和 b 任 何 一 个 为 True， 则 结果 为 True。 对 于 整数 ， 执 行 按 位 或 操作 

aAb 对 于 布尔 值 ， 如 果 a 或 b 为 True (但 不 都 为 True) ， 则 结果 为 True。 对 于 
整数 ， 执 行 按 位 异 或 操作 

a == 如 果 a 等 于 b， 则 结果 为 True 

al=b 如 果 a 不 等 于 b， 则 结果 为 True 


a<=b、a<b ”如果 a 小 于 等 于 (或 小 于 ) b， 则 结果 为 True 
a>b、a>=b 如 果 a 大 于 (或 大 于 等 于 ) b， 则 结果 为 True 
aisb 如 果 引 用 a 和 b 指 向 同一 个 Python 对 象 ， 则 结果 为 True 
aisnotb 如 果 引 用 a 和 b 指 向 不 同 的 Python 对 象 ， 则 结果 为 True 
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严格 与 懒 情 
无 论 使 用 什么 编程 语言 ， 都 必须 了 解 表达 式 是 何 时 被 求 值 的 。 看 看 下 面 这 两 个 简单 的 表 
达 式 : 


在 Python 中 ， 只 要 这 些 语句 被 求 值 ， 相 关 计算 就 会 立即 (也 就 是 严格 ) 发 生 ，d 的 值 会 
被 设置 为 30。 而 在 另 一 种 编程 范式 中 (比如 Haskell 这 样 的 纯 函 数 编程 语言 ) ，d 的 值 
在 被 使 用 之 前 是 不 会 被 计算 出 来 的 。 这 种 将 计算 推迟 的 思想 通常 称 为 延迟 计算 (lazy 
evaluation 主 沪 ) 。 而 Python 是 一 种 非常 严格 的 (急性 子 ) 语言 。 几 乎 在 任何 时 候 ， 计 算 
过 程 和 表达 式 都 是 立即 求 值 的 。 即 使 是 在 上 面 那个 简单 的 例子 中 ， 也 是 先 计算 b * c 的 结 
果然 后 再 将 其 与 a 加 起 来 的 。 


有 一 些 Python 技术 (尤其 是 用 到 和 迭代 器 和 生成 器 的 那些 ) 可 以 用 于 实现 延迟 计算 。 在 数 


据 密集 型 应 用 中 ， 当 执行 一 些 负荷 非常 高 的 计算 时 (这 种 情况 不 太 多 ) ， 这 些 技术 就 能 
派 上 用 场 了 。 


可 变 和 不 可 变 的 对 象 
大 部 分 Python 对 象 是 可 变 的 (mutable) ， 比 如 列表 、 字 典 、NumPy 数 组 以 及 大 部 分 用 户 
自 定义 类 型 (类 ) 。 也 就 是 说 ， 它 们 所 包含 的 对 象 或 值 是 可 以 被 修改 的 。 

In [274]: a_list = ['foo', 2, [4, 5]] 

In [275]: a_list[2] = (3, 4) 


In [276]: a_list 
Out[276]: ['foo0’, 2, (3, 4)] 


而 其 他 的 〈 如 字符 串 和 元 组 等 ) 则 是 不 可 变 的 (immutable) +， 
In [277]: a_tuple = (3，5，(4，5)) 


In [278]: a_ tuple[1] = 'four' 

TypeError Traceback (most recent call last) 
<ipython-input-278-b7966a9aeof1> in <module>() 

----> 1 a_tuple[1] = 'four’ 

TypeError: ‘tuple' object does not support item assignment 


译注 3: 在 函数 式 编程 中 ， 也 常 译作 惰性 求 值 。 


译注 4: 这 个 词 指 的 是 “不 能 修改 原 内 存 块 的 数据 ”。 也 就 是 说 ， 即 使 修改 操作 成 功 了 ， 也 只 是 创 
建 了 一 个 新 对 象 并 将 其 引用 赋值 给 原 变量 而 已 - 
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注意 ， 仅 仅 因 为 “可 以 修改 某 个 对 象 ”并 不 代表 “就 该 那么 做 ”。 这 种 行为 在 编程 中 也 
叫做 副作用 (side effect) 。 例 如 ， 在 编写 一 个 函数 时 ， 任 何 副作用 都 应 该 通过 该 函数 的 
文档 或 注释 明确 地 告知 用 户 。 即 使 可 以 使 用 可 变 对 象 ， 我 也 建议 尽量 避免 副作用 且 注 重 
不 变性 (immutability) 。 


标量 类 型 

Python 有 一 些 用 于 处 理 数值 数据 、 字 符 串 、 布 尔 值 (True 或 False) 以 及 日 期 /时 间 的 内 
置 类 型 。 表 A-2 列 出 了 主要 的 标量 类 型 。 后 面 我 们 将 单独 讨论 日 期 /时 间 的 处 理 ， 因 为 它 
们 是 由 标准 库 中 的 datetime 模 块 提供 的 。 


表 A-2: 标准 的 Python 标量 类 型 





类 型 说 明 

None Python 的 “null” 值 (None 只 存在 一 个 实例 对 象 ) 

str 字符 串 类 型 。Python 2.x 中 只 有 ASCll 值 ， 而 Python 3 中 则 是 Unicode 
unicode Unicode 字 符 串 类 型 

float 双 精 度 (64 位 ) 浮 点 数 。 注 意 ， 这 里 没有 专门 的 double 类 型 

bool True 或 False 

int 有 符号 整数 ， 其 最 大 值 由 平台 决定 

long 任意 精度 的 有 符号 整数 。 大 的 int 值 会 被 自动 转换 为 long 

数值 类 型 


用 于 表示 数字 的 主要 Python 类 型 是 int 和 float。 能 被 保存 为 int 的 整数 的 大 小 由 平台 决定 
(是 32 位 还 是 64 位 ) ， 但 是 Python 会 自动 将 非常 大 的 整数 转换 为 1ong， 它 可 以 存储 任意 
大 小 的 整数 。 

In [279]: ival = 17239871 


In [280]: ival *+ 6 
Out[280]: 26254519291092456596965462913230729701102721L 


浮 点 数 会 被 表示 为 Python 的 float 类 型 。 浮 点 数 会 被 保存 为 一 个 双 精度 (64 位 ) 值 。 它 们 
也 可 以 用 科学 计数 法 表示 : 


In [281]: fval = 7.243 
In [282]: fval2 = 6.78e-5 


在 Python 3 中 ， 整 数 除法 除 不 尽 时 就 会 产生 一 个 浮 点 数 : 
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In [284]: 3 / 2 
Out[284]: 1.5 


在 Python 2.7 及 以 下 版 本 中 〈 某 些 读者 现在 用 的 可 能 就 是 兰 让 5) ， 只 要 将 下 面 这 条 怪 模 怪 
样 的 语句 添加 到 自 定 义 模块 的 顶部 即 可 修改 这 个 默认 行为 : 


from _ future_ import division 
如 果 没 加 这 名 的 话 ， 你 也 可 以 显 式 地 将 分 母 转换 成 浮 点 数 评 计 6 


In [285]: 3 / float(2) 
out[285]: 1.5 


要 得 到 C 风 格 的 整数 除法 (如果 除 不 尽 ， 就 丢弃 小 数 部 分 ) ， 使 用 除 后 圆 整 运算 符 (/) 
即 可 : 


In [286]: 3 // 2 
Out[286]: 1 


复数 的 虚 部 是 用 j 表 示 的 : 
In [287]: cval = 1 + 2j 


In [288]: cval * (1 - 2j) 
Out[288]: (5+0j) 








字符 串 
很 多 人 都 是 因为 Python 强大 而 灵活 的 字符 串 处 理 能 力 才 使 用 它 的 。 编 写字 符 串 字面 量 
时 ， 既 可 以 用 单 引号 〈") 也 可 以 用 双 引 号 (") : 


a = 'one way of writing a string' 
b = ”another way” 


对 于 带 有 换行 符 的 多 行 字符 串 ， 可 以 使 用 三 重 引号 ( 即 '…' 或 """) : 
县 区 
This is a longer string that 
spans multiple lines 

Python 字符 串 是 不 可 变 的 。 要 修改 字符 串 就 只 能 创建 一 个 新 的 : 


In [289]: a = 'this is a string” 


译注 5: 作者 用 的 比 我 现在 用 的 版 本 还 老 。 所 以 在 闻 读 本 书 的 过 程 中 有 些 例子 的 计算 结果 不 一 定 跟 
书 上 的 完全 一 致 。 


译注 6: 分 子 也 可 以 的 。 
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In [290]: a[10] 








TypeError Traceback (most recent call last) 
<ipython-input-290-5ca625d1e504> in <module>() 

----> 1 a[10] = "ff" 

TypeError: 'str' object does not support item assignment 


In [291]: b = a.replace('string'， "longer string') 


In [292]: b 
Out[292]: ‘this is a longer string' 


许多 Python 对 象 都 可 以 用 str 函 数 转 换 为 字符 串 : 
In [293]: a = 5.6 In [294]: s = str(a) 


In [295]: s 
Out[295]: “5.6” 


由 于 字符 串 其 实 是 一 串 字符 序列 ， 因 此 可 以 被 当做 某 种 序列 类 型 (如 列表 、 元 组 等 ) 进 
行 处 理 ， 


In [296]: s = 'python’ In [297]: list(s) 
Out[297]: [p's ‘y's, th， on] 


In 
Out 


反 斜 杠 (\) 是 转 义 符 (escape character) ， 也 就 是 说 ， 它 可 用 于 指定 特殊 字符 (比如 新 
行 \n 或 unicode 字 符 ) 。 要 编写 带 有 反 斜 杠 的 字符 串 字面 量 ， 也 需要 对 其 进行 转 义 : 








In [299]: s = "12\\34" 








In [300]: print s 
12\34 


如 果 字 符 串 带 有 很 多 反 斜 杠 且 没有 特殊 字符 ， 你 就 会 发 现 这 个 办 法 很 容易 让 人 抓 狂 。 幸 
运 的 是 ， 你 可 以 在 字符 串 最 左边 引号 的 前 面 加 上 r， 它 表示 所 有 字符 应 该 按照 原本 的 样 
子 进行 解释 : 

In [301]: s = r'this\has\novspecial\characters” 


In [302]: s 
Out[302]: 'this\\has\\no\\special\\characters’ 


将 两 个 字符 串 加 起 来 会 产生 一 个 新 字符 串 
In [303]: a = 'this is the first half ， 


In [304]: b = 'and this is the second half’ 
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In [305]: a + b 

Out[305]: 'this is the first half and this is the second half’ 
字符 串 格式 化 是 另 一 个 重要 的 主题 。Python 3 带 来 了 一 些 新 的 字符 串 格式 化 手段 ， 这 里 
我 简要 说 明 一 下 其 主要 机 制 。 以 一 个 % 开 头 且 后 面 跟着 一 个 或 多 个 格式 字符 的 字符 串 是 
需要 插入 值 的 目标 (这 非常 类 似 于 C 语 言 中 的 printf 函 数 ) 。 看 看 下 面 这 个 字符 串 : 


In [306]: template = '%.2f %s are worth $%d' 


在 这 个 字符 串 中 ，%s 表 示 将 参数 格式 化 为 字符 串 ，%.2f 表 示 一 个 带 有 2 位 小 数 的 数字 ，%d 
表示 一 个 整数 。 要 用 实 参 替换 这 些 格式 化 形 参 ， 需 要 用 到 二 元 运算 符 % 以 及 由 值 组 成 的 元 
组 : 





In [307]: template % (4.5560, "Argentine Pesos’, 1) 
Out[307]: '4.56 Argentine Pesos are worth $1° 


字符 串 格式 化 是 一 个 很 大 的 主题 ， 控 制 值 在 结果 字符 串 中 的 格式 化 效果 的 方式 非常 多 。 
我 建议 你 在 网 上 多 找 一 些 有 关于 此 的 资料 来 看 看 。 


这 里 之 所 以 要 专门 讨论 通用 字符 串 处 理 ， 是 因为 它 有 关于 数据 分 析 ， 更 多 细节 请 参阅 第 
7 章 。 


布尔 值 
Python 中 的 两 个 布尔 值 分 别 写 作 True 和 False。 比 较 运算 和 条 件 表达 式 都 会 产生 True 或 
False。 布 尔 值 可 以 用 and 和 or 关键 字 进 行 连接 : 


In [308]: True and True 
Out[308]: True 


In [309]: False or True 
Out[309]: True 


几乎 所 有 内 置 的 Python 类 型 以 及 任何 定义 了 __nonzero_ 魔术 方 法 的 类 都 能 在 if 语 句 中 被 
解释 为 True 或 False: 

In [310]: a = [1, 2, 3] 
sve Af a: 


print 'I found sonething!' 


I found something! 





In [311]: b= [] 
: if not b: 
print ‘Empty!" 








Empty! 
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Python 中 大 部 分 对 象 都 有 真 假 的 概念 。 比 如 说 ， 如 果 空 序列 (列表 、 字 典 、 元 组 等 ) 用 
于 控制 流 (就 像 上 面 的 空 列表 b) 就 会 被 当做 Fal se 处 理 。 要 想 知道 某 个 对 象 究竟 会 被 强 
制 转 换 成 哪个 布尔 值 ， 使 用 bool 函 数 即 可 : 


In [312]: 
312]: 


Out 


In [313]: 
313]: 


Out 


In [314]: 
314]: 


Out 


类 型 转换 


str、bool、 


In 


In 


In 
Out 


None 


315]: 


316 


318] 


318]: 


(False, True) 


(True, False) 


(False, True) 


bool(0), bool(1) 


bool([]), bool([1, 2, 3]) 


bool('Helle world!'), bool('') 


int 以 及 float 等 类 型 也 可 用 作 将 值 转换 成 该 类 型 的 函数 ， 


5 = '3.14159" 


: fval = float(s) 


: int(fval) 
3 


In [317]: 
Out[317]: 


In [319]: 
Out[319]: 


type(fval) 

float 

bool (fval) In [320]: bool(o) 
True OQut[320]: False 


None 是 Python 的 空 值 类 型 。 如 果 一 个 函数 没有 显 式 地 返回 值 ， 则 隐 式 返回 None。 











is not None 
True 


None 还 是 函数 可 选 参数 的 一 种 常见 默认 值 ; 


def add_and_maybe_multiply(a, b, c=-None): 
result =a+b 


if c is not None: 


result = result * 上 


Teturn result 


我 们 要 牢记 ，None 不 是 一 个 保留 关键 字 ， 它 只 是 NoneType 的 一 个 实例 而 已 。 
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日 期 和 时 间 
Python 内 置 的 datetime 模 块 提供 了 datetime、date 以 及 time 等 类 型 。datetime 类 型 是 用 
得 最 多 的 ， 它 合并 了 保存 在 date 和 time 中 的 信息 : 


In [325]: from datetime import datetime，date，time 
In [326]: dt = datetime(2011, 10, 29, 20, 30, 21) 


In [327]: dt.day In [328]: dt.minute 
Out[327]: 29 Out[328]: 30 


给 定 一 个 datetime 实 例 ， 你 可 以 通过 调用 其 date 和 time 方 法 提取 相应 的 date 和 time 对 
象 ; 


In [329]: dt.date() In [330]: dt.time() 
Out[329]: datetime.date(2011, 10, 29) Out[330]: datetime.time(20, 30, 21) 


strftime 方 法 用 于 将 datetime 格 式 化 为 字符 囊 


In [331]: dt.strftime( '%m/%d/%Y XH:%M') 
Out[331]: '10/29/2011 20:30” 


字符 串 可 以 通过 strptime 函 数 转换 (解析) 为 datetime 对 象 : 





In [332]: datetime.strptime('20091031' , '%YXmXd"') 
Out[332]: datetime.datetime(2009, 10, 31, 0, 0) 


完整 的 格式 化 定义 请 参见 表 10-2。 
在 对 时 间 序 列 数据 进行 聚合 或 分 组 时 ， 可 能 需要 替换 datetime 中 的 一 些 字段 。 例 如 ， 将 
分 和 秒 字段 替换 为 0， 并 产生 一 个 新 对 象 : 


In [333]: dt.replace(minute=0, second=0) 
Out[333]: datetime.datetime(2011, 10, 29, 20, 0) 


两 个 datetime 对 象 的 差 会 产生 一 个 datetime.timedelta 类 型 : 
In [334]: dt2 = datetime(2011, 11, 15, 22, 30) 
In [335]: delta = dt2 - dt 


In [336]: delta In [337]: type(delta) 
Out[336]: datetime.timedelta(17, 7179) Out[337]: datetime.timedelta 


将 一 个 timedelta 加 到 一 个 datetime 上 会 产生 一 个 新 的 datetime: 


In [338]: dt 
Out[338]: datetime.datetime(2011, 10, 29, 20, 30, 21) 
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In [339]: dt + delta 
Out[339]: datetime.datetime(2011, 11, 15, 22, 30) 


控制 流 
if、 elif 和 else 
if 语 句 是 一 种 最 常见 的 控制 流 语句 类 型 。 它 用 于 判断 一 个 条 件 ， 如 果 为 True， 则 执行 紧 
跟 其 后 的 代码 块 : 
0 
print 'It's negative' 
-条 if 语句 可 以 跟 上 一 个 或 多 个 el if 抉 以 及 一 个 “滴水 不 漏 ” 的 else 块 (如果 所 有 条 件 
都 为 False) : 
if x < 0: 
print 'It's negative' 
elif x == 0: 
print “Equal to zero' 
elif o < xx 5 


print “positive but smaller than 5° 
else: 


print “Positive and larger than or equal to 5” 


如 果 任 何 一 个 条 件 为 True， 则 其 后 的 el if 或 else 块 就 不 会 执行 。 对 于 用 and 或 or 组 成 的 复 
合 条 件 ， 各 条 件 是 按 从 左 到 右 的 顺序 求 值 的 ， 而 且 是 短路 型 的 : 

In [340]:a=5;b=7 

In [341]: c=8;d=4 

In [342]: ifa<borc>d: 


sy print ‘Made it’ 
Made it 


在 本 例 中 ， 比 较 运算 c>d 是 不 会 被 计算 的 ， 因 为 第 一 个 比较 运算 为 True。 


for 循 环 
for 循 环 用 于 对 集合 (比如 列表 或 元 组 ) 或 迭代 器 进行 迭代 。for 循 环 的 标准 语法 是 : 


for value in collection: 
# 对 value 做 一 些 处 理 


continue 关 键 字 用 于 使 for 循 环 提前 进入 下 一 次 迭代 ( 即 跳 过 代码 块 的 剩余 部 分 ) 。 看 看 
下 面 这 段 代码 ， 其 功能 是 对 列表 中 的 整数 求 和 并 跳 过 None 值 : 
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Sequence = [1, 2, None, 4, None, 5] 
total = 0 
for value in sequence: 
if value is None: 
continue 
total += value 


break 关 键 字 用 于 使 for 循 环 完全 退出 。 下 面 这 段 代码 用 于 对 列表 的 元 素 求 和 ， 遇 到 5 就 退 
出 : 
sequence = [1, 2, 0, 4, 6, 5, 2, 1] 
total until 5 = 0 
for value in sequence: 
if value == 5: 
break 
total_until 5 += value 


后 面 我 们 还 会 看 到 ， 如 果 集 合 或 先 代 器 的 元 素 是 序列 类 型 (比如 元 组 或 列表 ) ， 那 么 还 
可 以 非常 方便 地 将 这 些 元 素 拆散 成 for 语 名 中 的 多 个 变量 : 


for a, b, c in iterator: 
# 做 一 些 处 理 


while 循 环 


while 循 环 定义 了 一 个 条 件 和 一 个 代码 块 ， 只 要 条 件 不 为 False 或 循环 没有 被 break 显 式 终 
止 ， 则 代码 块 将 一 直 不 断 地 执行 下 去 : 


x = 256 
total = 0 
while x > 0: 
if total > 500: 
break 
total += x 
x=x//2 


pass 


pass 是 Python 中 的 “ 空 操作 ”语句 。 它 可 以 被 用 在 那些 没有 任何 功能 的 代码 块 中 。 由 于 
Python 是 根据 空白 符 划分 代码 块 的 ， 所 以 它 的 存在 是 很 有 必要 的 : 





# T0D0: 在 这 里 放 点 代码 
pass 

else: 
print “positivel' 


在 开发 一 个 新 功能 时 ， 常 常会 将 pass 用 作 代码 中 的 占 位 符 : 
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def f(x，y，z): 
# T0D0: 实现 这 个 函数 ! 


pass 


异常 处 理 


优雅 地 处 理 Python 错 误 或 异常 是 构建 健壮 程序 的 重要 环节 。 在 数据 分 析 应 用 中 ， 许 多 函 
数 只 对 特定 类 型 的 输入 有 效 。 例 如 ，Python 的 float 函 数 可 以 将 字符 串 转换 为 浮 点 数 ， 但 
是 如 果 输 入 值 不 正确 就 会 产生 ValueError: 


In [343]: float('1.2345') 
Out[343]: 1.2345 





ValueError Traceback (most recent call last) 
<ipython-input-344-439904410854> in <module>() 

----> 1 float('something') 

ValueError: could not convert string to float: something 


假设 我 们 想 要 编写 一 个 在 出 错时 能 优雅 地 返回 输入 参数 的 改进 版 float 函 数 。 我 们 可 以 编 
写 一 个 新 函数 ， 并 把 对 float 函 数 的 调用 放 在 一 个 try/except 块 中 : 


def attempt_float(x): 
try: 
return float(x) 
except: 
return x 


只 有 当 float(x) 引 发 异常 时 ，except 块 中 的 代码 才 会 被 执行 : 
In [346]: attempt_float('1.2345') 
Out[346]: 1.2345 


In [347]: attempt_float('something’) 
Out[347]: 'something’ 


你 可 能 已 经 注意 到 了 ，float 还 可 以 引发 ValueError 以 外 的 异常 : 


In [348]: float((1, 2)) 

TypeError Traceback (most recent call last) 
<ipython-input-348-842079ebb635> in <module>() 

----> 1 float((1, 2)) 

TypeError: float() argument must be a string or a number 


你 可 能 只 希望 处 理 ValueError， 因 为 TypeError (输入 参数 不 是 字符 串 或 数值 ) 可 能 意味 
着 你 的 程序 中 存在 合法 性 bug。 要 达到 这 个 目的 ， 在 except 后 面 加 上 异常 类 型 即 可 : 


def attempt_float(x): 
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try: 

return float(x) 

except ValueError: 
return x 


于 是 我 们 就 有 了 : 





TypeError 

<ipython-input-350-9bdfd730cead> in <module>() 

----> 1 attempt float((1, 2)) 

<ipython-input-349-3e06b8379b6b> in attempt float(x) 
1 def attempt_float(x): 





try: 

----》3 return float(x) 
4 except ValueError: 
5 Teturn x 


TypeError: float() argument must be a string or a number 
只 需 编写 一 个 由 异常 类 型 组 成 的 元 组 〈 圆 括号 是 必需 的 ) 即 可 捕获 多 个 异常 : 


def attempt_float(x): 
try: 
return float(x) 
except (TypeError, ValueError): 
Teturn x 


有 时 你 可 能 不 想 处 理 任何 异常 ， 而 只 是 希望 有 一 段 代码 不 管 try 块 代码 成 功 与 否 都 能 被 执 
行 。 使 用 finally 即 可 达到 这 个 目的 : 


f = open(path, 'w') 


try: 
write_to_file(f) 
finally: 
f.close() 


这 里 ， 文 件 句柄 f 始 终 都 会 被 关闭 。 同 理 ， 你 也 可 以 让 某 些 代码 只 在 try 块 成 功 时 执行 ， 
使 用 else 即 可 : 


f = open(path, 'w') 


try: 

write_to_file({) 
except: 

print 'Failed' 
else: 

print 'Succeeded 
finally: 

f.close() 
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range 和 xrange 
range 国 数 用 于 产生 一 组 间隔 平均 的 整数 : 


In [352]: range(10) 
Out[352]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 


可 以 指定 起 始 值 、 结 束 值 以 及 步 长 等 信息 : 


In [353]: range(0, 20, 2) 
Out[353]: [0, 2, 4, 6, 8, 10, 12, 14, 16, 18] 


如 你 所 见 ，range 所 产生 的 整数 不 包括 未 端 值 。range 常 用 于 按 索引 对 序列 进行 迭代 : 


seq = [1, 2, 3, 4] 
for i in range(len(seq)): 
val = seq[i] 


对 于 非常 长 的 范围 ， 建 议 使 用 xrange， 其 参数 跟 range 一 样 ， 但 它 不 会 预先 产生 所 有 的 值 
并 将 它们 保存 到 列表 中 (可 能 会 非常 大 ) ， 而 是 返回 一 个 用 于 逐个 产生 整数 的 迭代 器 。 
下 面 这 段 代 码 用 于 对 0 到 9999 之 间 所 有 3 或 5 的 倍数 的 数字 求 和 : 
sum = 0 
for i in xrange(10000): 
# % 是 求 模 运 算 符 


if x%3==0o0rx%S5==0: 
Sum += 主 








注意 ， 在 Python 3 中 ，range 始 终 返 回 迭 代 器 ， 因 此 也 就 没 必要 使 用 xrange 函 数 了 。 


三 元 表达 式 
Python 的 三 元 表达 式 (ternary expression) 允许 你 将 产生 一 个 值 的 if-else 块 写 到 一 行 或 一 
个 表达 式 中 。 其 语法 如 下 所 示 : 

value = true-expr if condition else false-expr 
其 中 的 true-expr 和 false-expr 可 以 是 任何 Python 表 达 式 。 它 跟 下 面 这 种 元 长 格式 的 效果 
一 样 : 

if condition: 

value = true-expr 


else: 
value = false-expr 


下 面 是 一 个 具体 点 的 例子 : 





In [354]: x = 5 


In [355]: 'Non-negative' if x >= 0 else ‘Negative' 
Out[355]: “Non-negative” 


跟 if-else 块 一 样 ， 只 有 一 个 表达 式 会 被 求 值 。 虽 然 这 可 能 会 引诱 你 总 是 使 用 三 元 表达 式 
去 浓缩 你 的 代码 ， 但 要 意识 到 ， 如 果 条 件 以 及 true 和 false 表 达 式 非常 复杂 ， 就 可 能 会 牺 
牲 可 读 性 。 


数据 结构 和 序列 


Python 的 数据 结构 简单 而 强大 。 精 通 其 用 法 是 成 为 专家 级 Python 程序 员 的 关键 环节 。 


元 组 
元 组 (tuple) 是 一 种 一 维 的 、 定 长 的 、 不 可 变 的 Python 对 象 序列 。 最 简单 的 创建 方式 是 
-组 以 逗号 隔 开 的 值 ; 

In [356]: tup = 4, 5, 6 


In [357]: tup 
Out[357]: (4, 5, 6) 


在 更 复杂 的 表达 式 中 定义 元 组 时 ， 常 常 需要 用 圆 括号 将 值 围 起来， 比如 下 面 这 个 例子 ， 
它 创建 了 一 个 由 元 组 组 成 的 元 组 : 
In [358]: nested tup = (4, 5, 6), (7, 8) 


In [359]: nested_tup 
Out[359]: ((4, 5, 6), (7, 8)) 


通过 调用 tuple， 任 何 序列 或 迭代 器 都 可 以 被 转换 为 元 组 : 


In [360]: tuple([4, 0, 2]) 
Out[360]: (4, 0, 2) 








In [361]: tup = tuple('string') 


In [362]: tup 

Out[362]: ('s’, ‘t', ‘I', ‘1’, ‘n', 'g') 
跟 大 部 分 其 他 序列 类 型 一 样 ， 元 组 的 元 素 也 可 以 通过 方 括号 ([]) 进行 访问 。 跟 C、 
C++、Java 之 类 的 语言 一 样 ，Python 中 的 序列 也 是 从 0 开始 索引 的 : 


In [363]: tup[0] 
Out[363]: 's' 
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虽然 存储 在 元 组 中 的 对 象 本 身 可 能 是 可 变 的 ， 但 一 旦 创建 完毕 ， 存 放 在 各 个 插 槽 中 的 对 
象 就 不 能 再 被 修改 了 : 


In [364]: tup = tuple(['foo'，[1，2]，True]) 


In [365]: tup[2] = False 
TypeError 
<ipython-input-365-c7308343b841> in <module>() 

-~---> 1 tup[2] = False 

TypeError: 'tuple' object does not support item assignment 






# 不 过 
In [366]: tup[1].append(3) 


In [367]: tup 
out[367]: ('foo'，[1，2，3]，True) 


元 组 可 以 通过 加 号 (+) 运算 符 连接 起 来 以 产生 更 长 的 元 组 : 


In [368]: (4, None, 'foo') + (6, 0) + ('bar',) 
Out[368]: (4, None, 'foo', 6, 0, 'bar') 


跟 列 表 一 样 ， 对 一 个 元 组 乘 以 一 个 整数 ， 相 当 于 是 连接 该 元 组 的 多 个 副本 。 


In [369]: ('foo', ‘bar’) * 4 
Out[369]: ('foo'，'bar'，'foo'，'bar'，'foo'，'bar'，'foo'，'bar') 








注意 ， 对 象 本 身 是 不 会 被 复制 的 ， 这 里 涉及 的 只 是 它们 的 引用 而 已 。 


元 组 拆 包 
如 果 对 元 组 型 变量 表达 式 进 行 赋值 ，Python 就 会 尝试 将 等 号 右 侧 的 值 进行 拆 包 
(unpacking) : 

In [370]: tup = (4, 5, 6) 

In [371]: ab ec = tup 


In [372]: b 
Out[372]: 5 


即使 是 嵌 套 元 组 也 能 被 拆 包 : 
In [373]: tup = 4, 5, (6, 7) 
In [374]: a, b, (c, d) = tup 


In [375]: d 
out[375]: 7 
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利用 该 功能 可 以 非常 轻松 地 交换 变量 名 。 这 个 任务 在 其 他 许多 语言 中 可 能 是 下 面 这 个 样 


变量 拆 包 功能 常用 于 对 由 元 组 或 列表 组 成 的 序列 进行 迭代 : 
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)] 


for a, b, c in seq: 
pass 


另 一 个 常见 用 法 是 处 理 从 函数 中 返回 的 多 个 值 。 稍 后 将 详细 介绍 。 


元 组 方法 
由 于 元 组 的 大 小 和 内 存 不 能 被 修改 ， 所 以 其 实例 方法 很 少 。 最 有 用 的 是 count (对 列表 
也 是 如 此 ) ， 它 用 于 计算 指定 值 的 出 现 次 数 : 

In [376]: a = (1, 2, 2, 2, 3, 4, 2) 


In [377]: a.count(2) 
Out[377]: 4 


列表 
跟 元 组 相 比 ， 列 表 (list) 是 变 长 的 ， 而 且 其 内 容 也 是 可 以 修改 的 。 它 可 以 通过 方 括号 
([]) 或 list 函 数 进行 定义 : 

In [378]: a_list = [2, 3, 7, None] 

In [379]: tup = ('foo', ‘bar’, ‘baz') 


In [380]: b_list = list(tup) In [381]: b_list 
Out[381]: ["foo', ‘bar', ‘baz'] 


In [382]: b_list[1] = ‘peekaboo’ In [383]: b_list 
Out[383]: ['foo', ‘peekaboo’, 'baz'] 


列表 和 元 组 在 语义 上 是 差不多 的 ， 都 是 一 维 序列 ， 因 此 它们 在 许多 函数 中 是 可 以 互 换 
的 。 


添加 和 移 除 元 素 
通过 append 方 法 ， 可 以 将 元 素 添 加 到 列表 的 末尾 : 
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In [384]: b_ list.append('dwarf') 


In [385]: b list 
Out[385]: ['foo', "peekaboo'， ‘baz', ‘dwarf'] 


利用 insert 可 以 将 元 素 插入 到 列表 的 指定 位 置 : 
In [386]: b_list.insert(1, ‘red') 


In [387]: b_ list 
Out[387]: ['foo', ‘red', 'peekaboo', ‘baz', "duwarf'] 





敬告 ， insert 的 计算 量 要 比 append 大 ， 因 为 后 续 的 引用 必须 被 移动 以 便 为 新 元 素 腾 地 方 。 





insert 的 逆 运 算是 pop， 它 用 于 移 除 并 返回 指定 索引 处 的 元 素 : 


In [388]: b_ list.pop(2) 
Out[388]: “peekaboo 


In [389]: b_list 
Out[389]: ['foo', 'red', ‘baz', ‘dwarf'] 


remove 用 于 按 值 删 除 元 素 ， 它 找到 第 一 个 符合 要 求 的 值 然后 将 其 从 列表 中 删除 : 
In [390]: b_list.append('foo') 
In [391]: b_list.remove('foo') 


In [392]: b_ list 
Out[392]: ['red', ‘baz', ‘dwarf', "foo'] 


如 果 不 考虑 (使 用 append 和 remove 时 的 ) 性 能 ，Python 列 表 可 以 是 一 种 非常 不 错 的 “多 
重 集合 ”数据 结构 。 
通过 in 关键 字 ， 你 可 以 判断 列表 中 是 否 含有 某 个 值 : 


In [393]: ‘dwarf' in b_list 
Out[393]: True 


注意 ， 判 断 列表 是 否 含有 某 个 值 的 操作 比 字 典 (dict) 和 集合 (set) 慢 得 多 ， 因 为 
Python 会 对 列表 中 的 值 进 行 线性 扫描 ， 而 另外 两 个 (基于 哈 希 表 ) 则 可 以 瞬间 完成 判 
断 。 


合并 列表 
跟 元 组 一 样 ， 用 加 号 (+) 将 两 个 列表 加 起 来 即 可 实现 合并 : 


In [394]: [4, None, 'foo'] + [7, 8, (2, 3)] 
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out[394]: [4, None, ‘foo', 7, 8, (2, 3)] 

对 于 一 个 已 定义 的 列表 ， 可 以 用 extend 方 法 一 次 性 添加 多 个 元 素 : 
In [395]: x = [4，None，'foo'] 
In [396]: x.extend([7, 8, (2, 3)]) 


In [397]: x 
Out[397]: [4, None, 'foo', 7, 8, (2, 3)] 


注意 ， 列 表 的 合并 是 一 种 相当 费 资源 的 操作 ， 因 为 必须 创建 一 个 新 列表 并 将 所 有 对 象 
复制 过 去 。 而 用 extend 将 元 素 附 加 到 现 有 列表 (尤其 是 在 构建 一 个 大 列表 时 ) 就 会 好 很 
多 。 因 此 ， 


everything = [] 
for chunk in list_of_lists: 
everything.extend(chunk) 


要 比 等 价 的 合并 操作 快 得 多 
everything = [] 


for chunk in list_of lists: 
everything = everything + chunk 


排序 
调用 列表 的 sort 方 法 可 以 实现 就 地 排序 (无 需 创建 新 对 象 ) : 


In [398]: a = [7, 2, 5, 1, 3] 
In [399]: a.sort() 


In [400]: a 
Out[400]: [1, 2, 3, 5, 7] 


sort 有 几 个 很 不 错 的 选项 。 一 个 是 次 要 排序 键 ， 即 一 个 能 够 产生 可 用 于 排序 的 值 的 函 
数 。 例 如 ， 我 们 可 以 通过 长 度 对 一 组 字符 串 进行 排序 : 

In [401]: b = ['saw', 'small', He’, 'foxes', 'six'] 

In [402]: b.sort(key=len) 

In [403]: b 


Out[403]: ['He', 'saw', 'six', 'small', 'foxes'] 


二 分 搜索 及 维护 有 序列 表 
内 置 的 bisect 模 块 实现 了 二 分 查找 以 及 对 有 序列 表 的 插入 操作 。bisect.bisect 可 以 找 出 
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新 元 素 应 该 被 插入 到 哪个 位 置 才能 保持 原 列表 的 有 序 性 ， 而 bisect.insort 则 确实 地 将 新 
元 素 插入 到 那个 位 置 上 去 : 

In [404]: import bisect 

In [405]: c = [1, 2, 2, 2, 3, 4, 7] 

In [406]: bisect.bisect(c, 2) 

Out[406]: 


In [407]: bisect.bisect(c, 5) 
Out[407]: 6 





In [408]: bisect.insort(c, 6) 


In [409]: < 
Out[409]: [1, 2, 2, 2, 3, 4, 6, 7] 





警告 ， bisect 杭 块 的 函数 不 会 判 电 原 列表 是 否 是 有 序 的 ， 因 为 这 样 做 的 开销 太 大 了 。 因 此 ， 将 它们 
用 于 无 序列 表 虽 然 不 会 报错 ， 但 可 能 会 导致 不正 确 的 结果 。 





切片 
通过 切片 标记 法 ， 你 可 以 选取 序列 类 型 (数组 、 元 组 、NumPy 数 组 等 ) 的 子 集 ， 其 基本 
形式 由 索引 运算 符 ([]) 以 及 传人 其 中 的 start:stop 构 成 : 





In [410]: seq = [7, 2, 3, 7, 5, 6, 0, 1] 


In [411]: seq[1:5] 
Out[411]: [2, 3, 7, 5] 


切片 还 可 以 被 赋值 为 一 段 序 列 : 
In [412]: seq[3:4] = [6, 3] 


In [413]: seq 
Out[413]: [7, 2, 3, 6, 3, 5, 6, 0, 1] 


由 于 start 索 引 处 的 元 素 是 被 包括 在 内 的 ， 而 stop 索 引 处 的 元 素 是 未 被 包括 在 内 的 ， 所 以 
结果 中 的 元 素数 量 是 stop - start。 


start 或 stop 都 是 可 以 省 略 的 ， 此 时 它们 分 别 默认 为 序列 的 起 始 处 和 结尾 处 : 


In [414]: seq[:5] In [415]: seq[3:] 
Out[414]: [7, 2, 3, 6, 3] Out[415]: [6, 3, 5, 6, 0, 1] 


负数 索引 从 序列 的 末尾 开始 切片 : 


In [416]: seq[-4:] In [417]: seq[-6:-2] 
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out[416]: [5, 6, 0, 1] Out[417]: [6, 3, 5, 6] 


切片 的 语法 需要 花 点 时 间 去 适应 ， 尤 其 是 当 你 原来 用 的 是 R 或 MATLAB 时 。 图 A-2 形 象 地 
说 明了 正 整 数 和 负 整数 的 切片 过 程 。 


还 可 以 在 第 二 个 冒号 后 面 加 上 步 长 (step) 。 比 如 每 隔 一 位 取出 一 个 元 素 : 


In [418]: seq[::2] 
Out[418]: [7, 3, 3, 6, 1] 


在 这 里 使 用 一 1 是 一 个 很 巧妙 的 办 法 ， 它 可 以 实现 列表 或 元 组 的 反 序 : 


In [419]: seq[::-1] 
Out[419]: [1, 0, 6, 5, 3, 6, 3, 2, 7] 


| 
| (E,W | 
省 


| string[2:4] string[-5:-2] 


图 A-2: Python 的 切片 方式 


内 置 的 序列 函数 


Python 有 一 些 很 不 错 的 序列 函数 ， 你 应 该 熟悉 它们 ， 只 要 有 机 会 就 用 。 


enumerate 
在 对 一 个 序列 进行 迭代 时 ， 常 常 需要 跟踪 当前 项 的 索引 。 下 面 是 一 种 DIY 的 办 法 : 
i=0 
for value in collection: 
# 用 value 做 一 些 事情 
idye1 
由 于 这 种 事情 很 常见 ， 所 以 Python 就 内 置 了 一 个 enumerate 函 数 ， 它 可 以 逐个 返回 序列 的 
(i，value) 元 组 : 


for i, value in enumerate(collection): 


# 用 value 做 一 些 事情 
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在 对 数据 进行 索引 时 ，enumerate 还 有 一 种 不 错 的 使 用 模式 ， 即 求 取 一 个 将 序列 值 ( 假 
定 是 唯一 的 ) 映射 到 其 所 在 位 置 的 字典 。 

In [420]: some_list = ['foo', ‘bar', 'baz'] 

In [421]: mapping = dict((v, i) for i, v in enumerate(some_list)) 


In [422]: mapping 
Out[422]: {'bar’: 1, ‘baz': 2, ‘foo': 0} 


sorted 
sorted 函 数 可 以 将 任何 序列 返回 为 一 个 新 的 有 序列 表 : 


In [423]: sorted([7, 1, 2, 6, 0, 3, 2]) 
Out[423]: [0, 1, 2, 2, 3, 6, 7] 


In [424]: sorted('horse race') 
Out[424]: [ac e's e's hs o's rr’, ‘F's 81] 


常常 将 sorted 和 set 结 合 起 来 使 用 以 得 到 一 个 由 序列 中 的 唯一 元 素 组 成 的 有 序列 表 : 


In [425]: sorted(set('this is just some string')) 
Out[425]: [eg 0 Ts 't', 'u'] 





zip 
zip 用 于 将 多 个 序列 (列表 、 元 组 等 ) 中 的 元 素 “配对 ”， 从 而 产生 一 个 新 的 元 组 列 
表 : 

In [426]: seq1 = ['foo', ‘bar’, 'baz'] 

In [427]: seq2 = ['one', 'two', 'three’] 


In [428] 
Out[428]: 


zip 可 以 接受 任意 数量 的 序列 ， 最 终 得 到 的 元 组 数量 由 最 短 的 序列 决定 : 


ip(seqi, seq2) 
("foo', ‘one’), ('bar’, 'two'), (‘baz', 'three')] 





In [429]: seq3 = [False, True] 


In [430]: zip(seq1, seq2, seq3) 
Out[430]: [('foo', ‘one’, False), ('bar’, ‘two', True)] 


zip 最 常见 的 用 法 是 同时 和 迭代 多 个 序列 ， 还 可 以 结合 enumerate 一 起 使 用 : 


In [431]: for i, (a, b) in enumerate(zip(seq1, seq2)): 
print('%d: %s, %s' % (i, a, b)) 





0: foo, one 
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1: bar, two 
2: baz, three 


对 于 “已 压缩 的 ” (zipped) 序列 ，zip 还 有 一 个 很 巧妙 的 用 法 ， 即 对 该 序列 进行 “ 解 
压 ” (unzip) 。 其 实 就 是 将 一 组 行 转换 为 一 组 列 。 其 语法 看 起 来 有 点 神秘 : 


In [432]: pitchers = [("Nolan'，'Ryan')，("Roger'，'Clemens')， 
5 (‘Schilling’, ‘Curt')] 


In [433]: first_names, last_names = zip(*pitchers) 


In [434]: first_names 
Out[434]: ('Nolan', 'Roger', 'Schilling’) 


In [435]: last_names 
Out[435]: ('Ryan’, ‘Clemens’, ‘Curt') 


稍 后 我 将 详细 讨论 函数 调用 中 星 号 (*) 的 用 法 。 其 实 它 相 当 于 : 
zip(seq[0], seq[1], ..., seq[len(seq) - 1]) 


reversed 
reversed 用 于 按 逆 序 迭 代 序列 中 的 元 素 : 





In [436]: list(reversed(range(10))) 
Out[436]: [9, 8, 7, 6, 5, 4, 3, 2, 1, 0] 





字典 

字典 (dict) 可 算是 Python 中 最 重要 的 内 置 数据 结构 。 它 更 常见 的 名 字 是 哈 希 映射 (hash 
map) 或 相 联 数组 (associative array) 。 它 是 一 种 大 小 可 变 的 键 值 对 集 ， 其 中 的 键 
(key) 和 值 (value) 都 是 Python 对 象 。 创 建 字 典 的 方式 之 一 是 : 使 用 大 括号 ({}) 并 
用 冒号 分 隔 键 和 值 。 


In [437]: empty_dict = {} 
In [438]: dl = {"a' : "some value'，"b' : [1, 2, 3, 4]} 


In [439]: d1 
Out[439]: {'a': 'some value'，'b': [1, 2, 3, 4]} 


访问 (以 及 插入 、 设 置 ) 元 素 的 语法 跟 列 表 和 元 组 是 一 样 的 : 
In [440]: di[7] = "an integer’ 


In [441]: di 
Out[441]: {7: “an integer'，'a': 'some value’, 'b': [1, 2, 3, 4]} 
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In [442]: di['b'] 
Out[442]: [1, 2, 3, 4] 


你 可 以 判断 字典 中 是 否 存在 某 个 键 ， 其 语法 跟 在 列表 和 元 组 中 判断 是 否 存在 某 个 值 是 一 
样 的 : 


In [443]: 'b' in d1 
Out[443]: True 


使 用 del 关 键 字 或 pop 方 法 (删除 指定 值 之 后 将 其 返回 ) 可 以 删除 值 : 
In [444]: dl[5] = ‘some value’ 
In [445]: dl['dummy'] = ‘another value' 
In [446]: del di[5] 
In [447]: ret = di.pop('dummy') 


In [448]: ret 
Out[448]: ‘another value' 


keys 和 values 方 法 分 别 用 于 获取 键 和 值 的 列表 。 虽 然 键 值 对 没有 特定 的 顺序 ， 但 这 两 个 
函数 会 以 相同 的 顺序 输出 键 和 值 : 


In [449]: dl.keys() In [450]: di.values() 
Out[449]: ['a’, 'b', 7] Out[450]: ['some value’, [1, 2, 3, 4], "an integer’] 





警告 ， 如 果 你 正在 使 用 Python 3， 则 dict,keys() 和 dict.values() 会 返回 选 代 器 而 不 是 列表 。 


利用 update 方 法 ， 一 个 字典 可 以 被 合并 到 另 一 个 字典 中 去 : 
In [451]: di.update({'b' : 'foo', 'c' : 12}) 


In [452]: dl 
Out[452]: {7: 'an integer'，'a': 'some value'，'b': ‘foo', 'c': 12} 


从 序列 类 型 创建 字典 
有 时 你 可 能 会 想 将 两 个 序列 中 的 元 素 两 两 配对 地 组 成 一 个 字典 。 粗 略 分 析 一 下 之 后 ， 你 
可 能 会 写 出 这 样 的 代码 : 

mapping = {} 


for key, value in zip(key_list, value_list): 
mapping[key] = value 


由 于 字典 本 质 上 就 是 一 个 二 元 元 组 集 ， 所 以 我 们 完全 可 以 用 dict 类 型 函数 直接 处 理 二 元 
元 组 列表 : 
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In [453]: mapping = dict(zip(range(5)，reversed(range(5)))) 


In [454]: mapping 
Out[454]: {0: 4, 1: 3, 2: 2, 3: 1, 4: 0} 


稍 后 我 们 将 讨论 有 关 字 典 推导 式 的 知识 ， 这 是 构造 字典 的 另 一 种 优雅 的 方式 。 


默认 值 
下 面 这 样 的 逻辑 很 常见 : 
if key in some_dict: 
value = some_dict[key] 


else: 
value = default_value 


其 实 dict 的 get 和 pop 方 法 可 以 接受 一 个 可 供 返 回 的 默认 值 ， 于 是 ， 上 面 的 if-else 块 就 可 
以 被 简单 地 写成 : 


value = some dict.get(key, default_value) 


如 果 key 不 存在 ， 则 get 默 认 返 回 None， 而 pop 则 会 引发 一 个 异常 。 在 设置 值 的 时 候 ， 常 常 
会 将 字典 中 的 值 处 理 成 别 的 集 类 型 (比如 列表 ) 。 例 如 ， 根 据 首 字母 对 一 组 单词 进行 分 
类 并 最 终 产生 一 个 由 列表 组 成 的 字典 : 


In [455]: words = ['apple’, ‘bat', ‘bar', ‘atom’, ‘book'] 
In [456]: by_letter = {} 


In [457]: for word in words: 
5 letter = word[o] 
if letter not in by_letter: 
by_letter[letter] = [word] 
else: 
by_letter[letter] .append(word) 








In [458]: by_letter 
Out[458]: {"a': ['apple'’, ‘atom’], 'b': ['bat’, ‘bar’, "book']} 


字典 的 setdefault 方 法 刚好 能 达到 这 个 目的 。 上 面 的 if-else 块 可 以 写成 : 
by_letter. setdefault(letter, []).append(word) 


内 置 的 collections 模 块 有 一 个 叫做 defaultdict 的 类 ， 它 可 以 使 该 过 程 更 简单 。 传 人 一 
个 类 型 或 函数 (用 于 生成 字典 各 插 槽 所 使 用 的 默认 值 ) 即 可 创建 出 一 个 defaultdict: 


from collections import defaultdict 
by_letter = defaultdict(list) 
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for word in words: 
by_letter[word[0]].append(word) 


defaultdict 的 初始 化 器 只 需要 一 个 可 调用 对 象 (例如 各 种 函数 ) ， 并 不 需要 明确 的 类 
型 。 因 此 ， 如 果 你 想 要 将 默认 值 设 置 为 4， 只 需 传人 一 个 能 够 返回 4 的 函数 即 可 : 


counts = defaultdict(lambda: 4) 


字典 键 的 有 效 类 型 

虽然 字典 的 值 可 以 是 任何 Python 对 象 ， 但 键 必须 是 不 可 变 对 象 ， 如 标量 类 型 (整数 、 浮 
点 数 、 字 符 串 ) 或 元 组 (元 组 中 的 所 有 对 象 也 必须 是 不 可 变 的 ) 。 这 里 的 术语 是 可 哈 希 
性 (hashability ) 亚 这 7。 通过 hash 函 数 ， 你 可 以 判断 某 个 对 象 是 否 是 可 哈 希 的 〈 即 可 以 用 
作 字 典 的 键 ) : 


In [459]: hash('string') 
Out[459]: -9167918882415130555 


In [460]: hash((1, 2, (2, 3))) 
Out[460]: 1097636502276347782 


In [461]: hash((1，2，[2，3])) # 这 里 会 失败 ， 因 为 列表 是 可 变 的 





TypeError Traceback (most recent call last) 
<ipython-input-461-800cd14ba8be> in <module>() 

-~---> 1 hash((1，2，[2，3])) # 这 里 会 失败 ， 因 为 列表 是 可 变 的 

TypeError: unhashable type: "list' 


如 果 要 将 列表 当做 键 ， 最 简单 的 办 法 就 是 将 其 转换 成 元 组 : 
In [462]: d = {} 


In [463]: d[tuple([1, 2, 3])] = 5 








In [464]: d 
Out[464]: {(1, 2, 3): 5} 


集合 
集合 (set) 是 由 唯一 元 素 组 成 的 无 序 集 。 你 可 以 将 其 看 成 是 只 有 键 而 没有 值 的 字典 。 集 
合 的 创建 方式 有 二 : set 函 数 或 用 大 括号 包 起 来 的 集合 字面 量 : 


In [465]: set([2, 2, 2, 1, 3, 3]) 
Out[465]: set([1, 2, 3]) 


In [466]: {2, 2, 2, 1, 3, 3} 
Out[466]: set([1, 2, 3]) 


译注 7: 或 者 翻译 成 可 散 列 性 。 
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集合 支持 各 种 数学 集合 运算 ， 如 并 、 交 、 差 以 及 对 称 差 等 。 表 A-3 列 出 了 常用 的 集合 方法 : 
In [467]: a = {1, 2, 3, 4, 5} 
In [468]: b = {3, 4, 5, 6, 7, 8} 


In [469]: a | b # 并 (或 ) 
Out[469]: set([1, 2, 3, 4, 5, 6, 7, 8]) 


In [470]:a&b # 交 (与) 
Out[470]: set([3, 4, 5]) 


In [471]: a - b # 差 
Out[471]: set([1, 2]) 


In [472]: a ^ b # 对 称 差 ( 异 或 ) 
out[472]: set([1, 2, 6, 7, 8]) 


你 还 可 以 判断 一 个 集合 是 否 是 另 一 个 集合 的 子 集 ( 原 集合 包含 于 新 集合 ) 或 超 集 ( 原 集 
合 包含 新 集合 ) ， 
In [473]: a_set = {1, 2, 3, 4, 5} 


In [474]: {1, 2, 3}.issubset(a_set) 
Out[474]: True 


In [475]: a_set.issuperset({1, 2, 3}) 
Out[475]: True 


不 难看 出 ， 如 果 两 个 集合 的 内 容 相等 ， 则 它们 就 是 相等 的 : 


In [476]: {1, 2, 3} == {3, 2, 1} 
Out[476]: True 





表 A-3: Python 的 集合 运算 


函数 其 他 表示 法 。 说 明 

a.add(x) N/A 将 元 素 x 添 加 到 集合 a 

aremove(x) N/A 将 元 素 x 从 集合 a 中 删除 

a.union(b) alb a 和 b 全 部 的 唯一 元 素 

a.intersection(b) a&b a 和 b 都 有 的 元 素 

adifference(b) a-b a 中 不 属于 b 的 元 素 
a.symmetric_difference(b) a^b a 或 b 中 不 同时 属于 a 和 b 的 元 素 
a.issubset(b) N/A 如 果 a 的 全 部 元 素 都 包含 于 b， 则 为 True 
a.issuperset(b) N/A 如 果 b 的 全 部 元 素 都 包含 于 a， 则 为 True 
aisdisjointtb) N/A 如 果 a 和 b 没 有 公共 元 素 ， 则 为 True 
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列表 、 集 合 以 及 字典 的 推导 式 

列表 推导 式 是 最 受 欢 迎 的 Python 语言 特性 之 一 。 它 使 你 能 够 非常 简洁 地 构造 一 个 新 列 
表 : 只 需 一 条 简洁 的 表达 式 ， 即 可 对 一 组 元 素 进行 过 滤 ， 并 对 得 到 的 元 素 进行 转换 变 
形 。 其 基本 形式 如 下 





[expr for val in collection if condition] 
这 相当 于 下 面 这 段 for 循 环 : 

result = [] 

for val in collection: 


if condition: 
result.append(expr) 


过 滤器 条 件 可 以 省 略 ， 只 留 下 表达 式 。 例 如 ， 给 定 一 个 字符 串 列表 ， 我 们 可 以 滤 除 长 度 
小 于 等 于 2 的 字符 串 ， 并 将 剩 下 的 字符 串 转换 成 大 写字 母 形式 : 
In [477]: strings = ['a’, 'as’, ‘bat’, ‘car’, "dove'，'python'] 


In [478]: [x.upper() for x in strings if len(x) > 2] 
Out[478]: ['BAT', 'CAR', ‘DOVE', 'PYTHON'] 


集合 和 字典 的 推导 式 是 该 思想 的 一 种 自然 延伸 ， 它 们 的 语法 差不多 ， 只 不 过 产生 的 是 集 
合 和 字典 而 已 。 字 典 推导 式 的 基本 形式 如 下 : 
dict_comp = {key-expr : value-expr for value in collection if condition} 
集合 推导 式 跟 列表 推导 式 非常 相似 ， 唯 一 的 区 别 就 是 它 用 的 是 花 括 号 而 不 是 方 括号 ， 
set_comp = {expr for value in collection if condition} 
跟 列表 推导 式 一 样 ， 集 合 和 字典 的 推导 式 也 都 只 是 语法 糖 而 已 ， 但 它们 确实 能 使 代码 变 
得 更 容易 读 写 。 再 以 上 面 那个 字符 串 列表 为 例 ， 假 设 我 们 想 要 构造 一 个 集合 ， 其 内 容 为 
原 列表 字符 串 的 各 种 长 度 。 使 用 集合 推导 式 即 可 轻松 实现 此 功能 : 
In [479]: unique_ lengths = {len(x) for x in strings} 


In [480]: unique_lengths 
Out[480]: set([1, 2, 3, 4, 6]) 


再 来 看 一 个 简单 的 字典 推导 式 范例 。 我 们 可 以 为 这 些 字符 串 创建 一 个 指向 其 列表 位 置 的 
映射 关系 : 
In [481]: loc mapping = {val : index for index, val in enumerate(strings)} 


In [482]: loc_mapping 
Out[482]: {"a': 0, 'as': 1，"'bat': 2, 'car'’: 3, 'dove': 4, 'python': 5} 
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实际 上 ， 该 字典 还 可 以 这 样 构造 : 
loc mapping = dict((val, idx) for idx, val in enumerate(strings)) 


依 我 看 ， 字 典 推导 式 版 的 代码 要 更 短 也 更 清晰 。 





注意 ， 字典 和 集合 的 推 叶 式 是 最 近 才 加 入 到 Python 的 (Python 2.7 和 Python 3.1+) 。 





几 套 列表 推导 式 
假设 我 们 有 一 个 由 男孩 名 列表 和 女孩 名 列表 组 成 的 列表 ( 即 列表 的 列表 ) : 


In pak: all_data = [['Tom', ‘Billy’, ‘Jefferson', ‘Andrew', ‘Wesley', Steven', "Joe'], 
['Susie'’, 'Casey', 'Jill', 'Ana', 'Eva’, 'Jennifer', 'Stephanie’]] 
这 些 名 字 可 能 是 从 多 个 文件 中 读 取 出 来 的 ， 而 且 专 门将 男孩 女孩 的 名 字 分 开 。 现 在 ， 假 
设 我 们 想 要 找 出 带 有 两 个 以 上 ( 含 ) 字母 c 的 名 字 ， 并 将 它们 放 入 一 个 新 列表 中 。 我 们 
当然 可 以 用 一 个 简单 的 for 循 环 来 实现 : 
names_of_interest = [] 
for names in all data: 


enough_es = [name for name in names if name.count('e') > 2] 译 注 8 
names_of_interest.extend(enough_es) 


实际 上 ， 整 个 运算 过 程 完全 可 以 写成 一 条 幅 套 列表 推导 式 ， 如 下 所 示 : 


In Med]: result = [name for names in all data for name in names 
: if name.count('e') >= 2] 


In [485]: result 
Out[485]: ['Jefferson', ‘vesley', ‘Steven', 'Jennifer', 'Stephanie'] 


乍 看 起 来 ， 伐 套 列 表 推导 式 确实 不 太 好 理解 。 推 导 式 中 for 的 部 分 是 按 嵌 套 顺 序 排列 
的 ， 而 过 滤 条 件 则 还 是 跟 之 前 一 样 是 放 在 后 面 的 。 下 面 是 另外 一 个 例子 ， 将 一 个 由 整数 
元 组 构成 的 列表 “扁平 化 ”为 一 个 简单 的 整数 列表 : 

In [486]: some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)] 

In [487]: flattened = [x for tup in some_ tuples for x in tup] 


In [488]: flattened 
Out[488]: [1, 2, 3, 4, 5, 6, 7, 8, 9] 


其 实 你 可 以 这 样 来 记 : 伐 套 for 循 环 中 各 个 for 的 顺序 是 怎样 的 ， 俯 套 推 导 式 中 各 个 for 表 
达 式 的 顺序 就 是 怎样 的 。 


译注 8: 应 该 是 “>=”， 因 为 原文 是 “two and more”。 
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flattened = [] 


for tup in some_tuples: 
for x in tup: 
flattened.append(x) 


你 可 以 编写 任意 多 层 的 代 套 ， 但 是 如 果 伐 套 超 过 两 三 层 的 话 ， 可 能 你 就 得 思考 一 下 数据 


结构 设计 有 没有 问题 了 。 一 定 要 注意 上 面 那 种 语法 跟 “列表 推导 式 中 的 列表 推导 式 ” 之 
间 的 区 别 。 比 如 下 面 这 条 语句 也 是 正确 的 ， 但 结果 不 同 : 


In [229]: [[x for x in tup] for tup in some_tuples] 


函数 是 Python 中 最 主要 也 是 最 重要 的 代码 组 织 和 复 用 手段 。 也 许 并 不 存在 拥有 超级 多 函 
数 的 东西 。 实 际 上 ， 我 严重 认为 大 部 分 程序 员 在 做 数据 分 析 工 作 时 所 编写 的 函数 不 够 
多 ! 从 前 面 的 例子 中 不 难看 出 ， 函 数 是 用 def 关 键 字 声明 的 ， 并 使 用 return 关 键 字 返 回 : 
def my_function(x, y, 2=1.5): 
ifz>1: 
return z * (x + y) 


else: 
Teturn z / (x + y) 


同时 拥有 多 条 return 语 句 也 是 可 以 的 。 如 果 到 达 函 数 末 尾 时 没有 遇 到 任何 一 条 return 语 
旬 ， 则 返回 None。 





函数 可 以 有 一 些 位 置 参 数 (positional) 和 一 些 关 键 字 参数 (keyword) 。 关 键 字 参数 通 
常用 于 指定 默认 值 或 可 选 参数 。 在 上 面 的 函数 中 ，x 和 y 是 位 置 参数 ， 而 z 则 是 关键 字 参 
数 。 也 就 是 说 ， 该 函数 可 以 下 面 这 两 种 方式 进行 调用 : 

my_function(5, 6, z=0.7) 

my_function(3.14, 7, 3.5) 
函数 参数 的 主要 限制 在 于 : 关键 字 参 数 必须 位 于 位 置 参 数 (如 果 有 的 话 ) 之 后 。 你 可 以 
任何 顺序 指定 关键 字 参 数 。 也 就 是 说 ， 你 不 用 死记 硬 背 函数 参数 的 顺序 ， 只 要 记得 它们 
的 名 字 就 可 以 了 。 


命名 空间 、 作 用 域 ， 以 及 局 部 函数 

函数 可 以 访问 两 种 不 同 作用 域 中 的 变量 : 全 局 (global) 和 局 部 (local) 。Python 有 一 
种 更 科学 的 用 于 描述 变量 作用 域 的 名 称 ， 即 命名 室 间 (namespace) 。 任 何在 函数 中 赋 
值 的 变量 默认 都 是 被 分 配 到 局 部 命名 空间 (local namespace) 中 的 。 局 部 命名 空间 是 在 
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函数 被 调用 时 创建 的 ， 函 数 参数 会 立即 填 入 该 命名 空间 。 在 函数 执行 完毕 之 后 ， 局 部 命 
名 空间 就 会 被 销毁 (会 有 一 些 例外 的 情况 ， 具 体 请 参见 后 面 介绍 闭 包 的 那 一 节 ) 。 看 看 
下 面 这 个 函数 : 
def func(): 
a=[] 
for i in range(5): 
a.append(i) 
调用 func() 之 后 ， 首 先 会 创建 出 空 列表 a， 然 后 添加 5 个 元 素 ， 最 后 a 会 在 该 函数 退出 的 时 
候 被 销毁 。 假 如 我 们 像 下 面 这 样 定义 a: 
a=[] 
def func(): 
for i in range(5): 
a.append(i) 
虽然 可 以 在 函数 中 对 全 局 变量 进行 赋值 操作 ， 但 是 那些 变量 必须 用 global 关 键 字 声明 成 
全 局 的 才 行 : 


In [489]: a = None 


In [490]: def bind_a_variable(): 
global a 
a=[] 

bind_a_variable( 





) 评 注 9 


In [491]: print a 
0] 





警告 ， 我 常常 建议 人 们 不 要 频繁 使 用 global 关键 宇 。 因 为 全 局 变量 一 般 是 用 于 存放 系统 的 某 此 状态 
的 。 如 果 你 发 现 自己 用 了 很 多 ， 那 可 能 就 说 明 得 要 来 点 儿 面向 对 象 编程 了 《即使 用 关 ) 。 





可 以 在 任何 位 置 进行 函数 声明 ， 即 使 是 局 部 函数 (在 外 层 函 数 被 调用 之 后 才 会 被 动态 创 
建 出 来 ) 也 是 可 以 的 : 
def outer function(x, y, 2): 
def inner function(a，b，c): 
pass 

pass 
在 上 面 的 代码 中 ，inner_function 在 outer_function 被 调用 之 前 是 不 存在 的 。 只 要 
outer_function 结 束 执行 ， 则 inner_function 将 会 立即 被 销毁 。 


译注 9: 注意 缩 进 ， 别 搞 成 递归 了 。 
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各 个 嵌 套 的 内 层 函 数 可 以 访问 其 上 层 函 数 的 局 部 命名 空间 ， 但 不 能 绑 定 新 变量 。 我 将 在 
讲解 闭 包 的 时 候 再 对 此 问题 进行 讨论 。 


严格 意义 上 来 说 ， 所 有 函数 都 是 某 个 作用 域 的 局 部 函数 ， 这 个 作用 域 可 能 刚好 就 是 模块 
级 的 作用 域 。 


返回 多 个 值 
在 我 第 一 次 用 Python 编程 时 (之 前 已 经 习惯 了 Java 和 C++) ， 最 喜欢 的 一 个 功能 是 ， 函 
数 可 以 返回 多 个 值 。 下 面 是 一 个 简单 的 例子 


在 数据 分 析 和 其 他 科学 计算 应 用 中 ， 你 会 发 现 自己 常常 这 么 干 ， 因 为 许多 函数 都 可 能 会 
有 多 个 输出 (在 该 函数 内 部 计算 出 的 数据 结构 或 其 他 辅助 数据 ) 。 如 果 回 忆 一 下 本 章 早 
前 讲 过 的 元 组 打包 和 拆 包 功能 ， 你 可 能 会 明白 这 到 底 是 怎么 一 回 事 : 该 函数 其 实 只 返回 
了 一 个 对 象 ， 也 就 是 一 个 元 组 ， 最 后 该 元 组 会 被 拆 包 到 各 个 结果 变量 中 。 在 上 面 的 例子 
中 ， 我 们 还 可 以 这 样 写 ; 


return_value = f() 


不 难看 出 ， 这 里 的 return_value 将 会 是 一 个 含有 3 个 返回 值 的 三 元 元 组 。 此 外 ， 还 有 一 种 
非常 具有 吸引 力 的 多 值 返 回 方式 一 一 返回 字典 : 
def f(): 
a=5 
b=6 
c=7 
return {a’ :a, "bb : b, 'c' 3 9 


函数 亦 为 对 象 

由 于 Python 函 数 都 是 对 象 ， 因 此 ， 在 其 他 语言 中 较 难 表达 的 一 些 设计 思想 在 Python 中 就 
要 简单 很 多 了 。 假 设 我 们 有 下 面 这 样 一 个 字符 串 数组 ， 希 望 对 其 进行 一 些 数据 清理 工作 
并 执行 一 堆 转 换 : 


states = [' Alabama ', ‘Georgia!’, ‘Georgia’, ‘georgia’, ‘FlOrIda’, 
'south carolina##', ‘West virginia?'] 
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不 管 是 谁 ， 只 要 处 理 过 由 用 户 提交 的 调查 数据 ， 就 能 明白 这 种 乱七八糟 的 数据 是 怎么 一 
回 事 。 为 了 得 到 一 组 能 用 于 分 析 工 作 的 格式 统一 的 字符 串 ， 需 要 做 很 多 事情 : 去 除 空白 
符 、 删 除 各 种 标点 符号 、 正 确 的 大 写 格式 等 。 乍 一 看 上 去 ， 我 们 可 能 会 写 出 下 面 这 样 的 
代码 : 


import re # 正则 表达 式 模块 





def clean_strings(strings): 
result = [] 
for value in strings: 
value = value.strip() 
value = re.sub('[!#?]'，''，value) # 移 除 标点 符号 
value = value.title() 
result.append(value) 
return result 


最 终结 果 如 下 所 示 : 


In [15]: clean_strings(states) 
out[15]: 

['Alabama'， 

“Georgia ， 

'Georgia'y 

"Georgia'， 

‘Florida’, 

“South Carolina ， 

"West Virginia'] 


其 实 还 有 另外 一 种 不 错 的 办 法 : 将 需要 在 一 组 给 定 字符 串 上 执行 的 所 有 运算 做 成 一 个 列 
表 : 


def remove_punctuation(value): 
return re.sub('[1#?]', '’, value) 


clean_ops = [str.strip, remove_punctuation, str.title] 


def clean_strings(strings, ops): 
result = [] 
for value in strings: 
for function in ops: 
value = function(value) 
result.append(value) 
return result 


然后 我 们 就 有 了 : 


In [22]: clean_strings(states，clean_ops) 
out[22]: 

['Alabama’ , 

"Georgia’, 

"Georgia’, 
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‘Georgia', 

'Florida', 

'South Carolina'， 

"West Virginia'] 
这 种 多 函数 模式 使 你 能 在 很 高 的 层次 上 轻松 修改 字符 串 的 转换 方式 。 此 时 的 clean_ 
strings 也 更 具 可 复 用 性 ! 


还 可 以 将 函数 用 作 其 他 函数 的 参数 ， 比 如 内 置 的 map 函 数 ， 它 用 于 在 一 组 数据 上 应 用 一 
个 函数 : 

In [23]: map(remove_punctuation, states) 

out[23]: 

[” Alabama '， 

'Georgia' 

"Georgia'， 

"georgia' 

"Fl0rIda'， 

'south carolina'， 

"West virginia'] 


匿名 (lambda) 函数 

Python 有 一 种 被 称 为 匿名 函数 或 1ambda 函 数 的 东西 ， 这 其 实 是 一 种 非常 简单 的 函数 ， 仅 
由 单条 语句 组 成 ， 该 语句 的 结果 就 是 返回 值 。 它 们 是 通过 1ambda 关 键 字 定义 的 ， 这 个 关 
键 字 没 有 别 的 含义 ， 仅 仅 是 说 “我 们 正在 声明 的 是 一 个 匿名 函数 ” 。 


def short_function(x): 
Teturn x * 2 


equiv_anon = lambda x: x * 2 


本 书 其 余部 分 一 般 将 其 称 为 lambda 函 数 。 它 们 在 数据 分 析 工 作 中 非常 方便 ， 因 为 你 会 发 
现 很 多 数据 转换 函数 都 以 函数 作为 参数 的 。 直 接 传人 1ambda 函 数 比 编写 完整 函数 声明 要 
少 输入 很 多 字 (也 更 清晰 ) ， 甚 至 比 将 1ambda 函 数 赋值 给 一 个 变量 还 要 少 输 入 很 多 字 。 
看 看 下 面 这 个 简单 得 有 些 傻 的 例子 : 


def apply_to_list(some_list, f): 
return [f(x) for x in some_list] 


ints = [4, 0, 1, 5, 6] 
apply_to_list(ints, lambda x: x * 2) 


虽然 你 可 以 直接 编写 [x * 2 for x in ints]， 但 是 这 里 我 们 可 以 非常 轻松 地 传人 一 个 自 
定义 运算 给 apply_to_list 函 数 。 
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再 来 看 另外 一 个 例子 。 假 设 有 一 组 字符 串 ， 你 想 要 根据 各 字符 串 不 同 字母 的 数量 对 其 进 
行 排序 : 


In [492]: strings = ['foo', ‘card', ‘bar'’, ‘aaaa', "abab'] 
这 里 ， 我 们 可 以 传 入 一 个 lambda 函 数 到 列表 的 sort 方 法 : 
In [493]: strings.sort(key=lambda x: len(set(list(x)))) 


In [494]: strings 
Out[494]: ['aaaa’, ‘foo', "abab’, ‘bar’, card'] 





注意 ，lambda 有 数 之 所 以 会 被 称 为 医 名 函数 ， 原 因 之 一 就 是 这 种 函数 对 象 本 身 是 没有 提供 名 称 属 
性 的 。 





闭 包 : 返回 函数 的 函数 

闭 包 (closure) 不 是 什么 很 可 怕 的 东西 。 如 果 用 对 了 地 方 ， 它 们 其 实 可 以 非常 强大 ! 简 
而 闭 包 就 是 由 其 他 函数 动态 生成 并 返回 的 函数 。 其 关键 性 质 是 ， 被 返回 的 函数 可 
以 访问 其 创建 者 的 局 部 命名 空间 中 的 变量 。 下 面 是 一 个 非常 简单 的 例子 : 





def make_closure(a): 
def closure(): 
print('I know the secret: %d' % a) 
return closure 


closure = make_closure(5) 


闲 包 和 标准 Python 函 数 之 间 的 区 别 在 于 ， 即使 其 创建 者 已 经 执行 完毕 ， 闭 包 仍 能 继续 
访问 其 创建 者 的 局 部 命名 空间 。 因 此 ， 在 上 面 这 种 情况 中 ， 返 回 的 闭 包 将 可 打印 出 “I 
know the secret: 5”。 虽 然 闭 包 的 内 部 状态 (在 本 例 中 ， 只 有 值 a) 一 般 都 是 静态 的 ， 
但 也 允许 使 用 可 变 对 象 (如 字典 、 集 合 、 列 表 等 可 以 被 修改 的 对 象 ) 。 例 如 ， 下 面 这 个 
函数 可 以 返回 一 个 能 够 记录 其 参数 (曾经 传人 的 一 切 参数 ) 的 函数 ; 


def make_watcher(): 
have_seen = {} 


def has_been_seen(x): 
if x in have_seen: 
return True 
else: 
have_seen[x] = True 
return False 


return has_been_seen 
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对 一 组 整数 使 用 该 函数 ， 可 以 得 到 : 
In [496]: watcher = make watcher() 
In [497]: vals = [5, 6, 1, 5, 1, 6, 3, 5] 


In [498]: [watcher(x) for x in vals] 
Out[498]: [False, False, False, True, True, True, False, True] 
但 是 要 注意 一 个 技术 限制 : 虽然 可 以 修改 任何 内 部 状态 对 象 (比如 向 字典 添加 键 值 
对 ) ， 但 不 能 绑 定 外 层 函 数 作 用 域 中 的 变量 。 一 个 解决 办 法 是 : 修改 字典 或 列表 ， 而 不 
是 绑 定 变量 。 
def make_counter(): 
count = [0] 
def counter(): 
# 增加 并 返回 当前 的 count 
count[0] += 1 


return count[o] 
return counter 


counter = make_counter() 

你 可 能 会 想 ， 这 到 底 有 什么 用 。 在 实际 工作 中 ， 你 可 以 编写 带 有 大 量 选项 的 非常 一 般 化 
的 函数 ， 然 后 再 组 装 出 更 简单 更 专门 化 的 函数 。 下 面 这 个 例子 中 创建 了 一 个 字符 串 格式 
化 函数 ， 


def format_and_pad(template, space): 
def formatter(x): 
return (template % x).rjust(space) 


return formatter 
然后 ， 你 可 以 创建 一 个 始终 返回 15 位 字符 串 的 浮 点 数 格式 化 器 ， 如 下 所 示 : 
In [500]: fmt = format_and_pad('%.4f'，15) 


In [501]: fmt(1.756) 

Out[501]: " 1.7560" 
如 果 多 学 一 些 Python 面 向 对 象 编程 方面 的 知识 ， 你 就 会 发 现 这 种 模式 其 实 也 能 用 类 来 实 
现 (虽然 会 更 喝 嗪 一 点 ) 。 


扩展 调用 语法 和 *args、**kwargs 

在 Python 中 ， 函 数 参数 的 工作 方式 其 实 很 简单 。 当 你 编写 func(a，b，c，d=some, 
e=value) 时 ,位置 和 关键 字 参 数 其 实 分 别 是 被 打包 成 元 组 和 字典 的 。 函 数 实际 接收 到 的 
是 一 个 元 组 args 和 一 个 字典 kwargs， 并 在 内 部 完成 如 下 转换 : 
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a, b, c = args 
d = kwargs.get('d', d_default_value) 
e = kwargs.get('e', e_default_value) 
这 一 切 都 是 在 幕后 悄悄 发 生 的 。 当 然 ， 它 还 会 执行 一 些 错误 检查 ， 还 允许 你 将 位 置 参数 
当成 关键 字 参 数 那样 进行 指定 (即使 它们 在 函数 定义 中 并 不 是 关键 字 参 数 ) 。 
def say_hello then_call_f(f, +args, **kwargs): 
print 'args is', args 
print 'kwargs is', kwargs 


print("Hello! Now I'm going to call %s" % f) 
return f(*args, **kwargs) 


def g(x, y, 2=1): 
Teturn (x + y) / z 


然后 ， 如 果 我 们 通过 say_hello_then_call_f 调 用 g， 就 会 得 到 : 


In [8]: say_hello_then_call_ f(g, 1, 2, z=5.) 

args is (1, 2) 

kwargs is {'z': 5.0} 

Hello! Now I'm going to call <function g at Ox2ddScf8> 
Out[8]: 0.6 


柯 里 化 : 部 分 参数 应 用 

柯 里 化 (currying) 是 一 个 有 趣 的 计算 机 科学 术语 ， 它 指 的 是 通过 “部 分 参数 应 用 ” 
(partial argument application) 从 现 有 函数 派生 出 新 函数 的 技术 。 假 设 我 们 有 一 个 执行 
两 数 相 加 的 简单 函数 : 


def add_numbers(x，y): 
ITeturn X + Y 


通过 这 个 函数 ， 我 们 可 以 派生 出 一 个 新 的 只 有 一 个 参数 的 函数 一 一 add_five， 它 用 于 对 
其 参数 加 5: 


add_five = lambda y: add_numbers(5, y) 


add_numbers 的 第 二 个 参数 称 为 “ 柯 里 化 的 ” (curried) 。 这 里 没什么 特别 花哨 的 东西 ， 
因为 我 们 其 实 就 只 是 定义 了 一 个 可 以 调用 现 有 函数 的 新 函数 而 已 。 内 置 的 functools 模 
块 可 以 用 partial 函 数 将 此 过 程 简化 : 


from functools import partial 
add five = partial(add_numbers, 5) 


在 讨论 pandas 和 时 间 序 列 数据 时 ， 我 们 将 会 用 该 技术 去 创建 专门 的 数据 序列 转换 函数 : 
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# 计算 时 间 序 列 x 的 60 日 移动 平均 
ma60 = lambda x: pandas.rolling mean(x, 60) 


# 计算 data 中 所 有 时 间 序 列 的 60 日 移动 平均 
data.apply(ma60) 


生成 器 

能 以 一 种 一 致 的 方式 对 序列 进行 迭代 (比如 列表 中 的 对 象 或 文件 中 的 行 ) 是 Python 的 一 
个 重要 特点 。 这 是 通过 一 种 叫做 迭代 器 协议 (iterator protocol， 它 是 一 种 使 对 象 可 迭代 
的 通用 方式 ) 的 方式 实现 的 。 比 如 说 ， 对 字典 进行 迭代 可 以 得 到 其 所 有 的 键 ; 


In [502]: some_dict = {a': 1, 'b': 2, 'c': 3} 


In [503]: for key in some_dict: 
print key, 于 10 
acb 


当 你 编写 for key in some_dict 时 ，Python 解 释 器 首先 会 尝试 从 some_dict 创 建 一 个 迭代 
器 : 


In [504]: dict iterator = iter(some dict) 


In [505]: dict_iterator 

Out[505]: <dictionary-keyiterator at Ox10a0a1578> 
迭代 器 是 一 种 特殊 对 象 ， 它 可 以 在 诸如 for 循 环 之 类 的 上 下 文中 向 Python 解释 器 输送 对 
象 。 大 部 分 能 接受 列表 之 类 的 对 象 的 方法 也 都 可 以 接受 任何 可 迭代 对 象 。 比 如 min、 
max、sum 等 内 置 方法 以 及 list、tuple 等 类 型 构造 器 : 

In [506]: list(dict_iterator) 

Out[506]: ['a'，'c'，'b'] 
生成 器 (generator) 是 构造 新 的 可 选 代 对 象 的 一 种 简单 方式 。 一 般 的 函数 执行 之 后 只 会 
返回 单个 值 ， 而 生成 器 则 是 以 延迟 的 方式 返回 一 个 值 序列 ， 即 每 返回 一 个 值 之 后 暂停 ， 
直到 下 一 个 值 被 请 求 时 再 继续 。 要 创建 一 个 生成 器 ， 只 需 将 函数 中 的 return 替 换 为 yeild 
即 可 : 

def squares(n=10): 

for i in xrange(1, n + 1): 


print ‘Generating squares from 1 to %d' % (n ** 2) 译 注 由 
yield i ** 2 


译注 10; 注意 这 里 的 过 号 。 
译注 11: 应 该 放 到 for 御 环 之 前 ， 否 则 后 面 的 执行 结果 与 书 上 的 不 一 样 。 
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调用 该 生成 器 时 ， 没 有 任何 代码 会 被 立即 执行 : 
In [2]: gen = squares() 


In [3]: gen 
Out[3]: <generator object squares at Ox34c8280> 


直到 你 从 该 生成 器 中 请 求 元 素 时 ， 它 才 会 开始 执行 其 代码 : 


In [4]: for x in gen: 
eprint xy 


Generating squares from 0 to 100 
149 1625 36 49 64 81 100 


假设 我 们 希望 找 出 “将 1 美元 ( 即 100 美 分 ) 兑换 成 任意 一 组 硬币 ”的 所 有 唯一 方式 。 你 
可 能 会 想 出 很 多 种 实现 办 法 (包括 “已 找到 的 唯一 组 合 ” 的 保存 方式 ) 。 下 面 我 们 编写 
-个 生成 器 来 产生 这 样 的 硬币 组 合 ( 硬 币 面额 用 整数 表示 ) : 


def make_change(amount, coins=[1, 5, 10, 25], hand=None): 

hand = [] if hand is None else hand 

if amount == 0: 
yield hand 

for coin in coins: 
# 确保 我 们 给 出 的 硬币 没有 超过 总 额 ， 且 组 合 是 唯一 的 
if coin > amount or (len(hand) > 0 and hand[-1] < coin): 

continue 


for result in make_change(amount - coin, coins=coins, 
hand=hand + [coin]): 
yield result 


这 个 算法 的 细节 并 不 重要 (你 能 想 出 一 个 更 短 点 的 办 法 吗 ? ) 。 然 后 我 们 可 以 编写 ; 


In [508]: for way in make_change(100，coins=[10，25，50]): 
print way 

[10, 10, 10, 10, 10, 10, 10, 10, 10, 10] 

[25, 25, 10, 10, 10, 10, 10] 

[25, 25, 25, 25] 

[50, 10, 10, 10, 10, 10] 

[50, 25, 25] 

[so, 50] 


In [509]: len(list(make_change(100))) 
Out[509]: 242 
生成 器 表达 式 
生成 器 表达 式 (generator expression) 是 构造 生成 器 的 最 简单 方式 。 生 成 器 也 有 一 个 类 


似 于 列表 、 字 典 、 集 合 推导 式 的 东西 ， 其 创建 方式 为 ， 把 列表 推导 式 两 端的 方 括号 改 成 
圆 括号 : 





Python 语言 精 要 | 447 


In [510]: gen = (x ** 2 for x in xrange(100)) 


In [511]: gen 
Out[511]: <generator object <genexpr> at 0x10a0a31e0> 


它 跟 下 面 这 个 元 长 得 多 的 生成 器 是 完全 等 价 的 : 
def _make_gen(): 
for x in xrange(100): 
yield x ** 2 
gen = _make_gen() 


生成 器 表达 式 可 用 于 任何 接受 生成 器 的 Python 函数 : 


In [512]: sum(x ** 2 for x in xrange(100)) 
Out[512]: 328350 


In [513]: dict((i, i **2) for i in xrange(5)) 
Out[513]: {0: 0, 1: 1, 2: 4, 3: 9, 4: 16} 


itertools 模 块 
标准 库 itertools 模 块 中 有 一 组 用 于 许多 常见 数据 算法 的 生成 器 。 例 如 ，groupby 可 以 接 
受 任何 序列 和 一 个 函数 。 它 根据 函数 的 返回 值 对 序列 中 的 连续 元 素 进行 分 组 。 下 面 是 一 
个 例子 : 
In [514]: import itertools 
In [515]: first_letter = lambda x: x[0] 


In [516]: names = ['Alan’, 'Adam', ‘Wes', "Will'’, 'Albert', 'Steven’'] 





or letter, names in itertools.groupby(names, first_letter): 
print letter，list(names) # names 是 一 个 生成 器 
"Adam'] 





表 A-4 中 列 出 了 一 些 我 经 常用 到 的 itertools 函 数 。 
表 A-4: 一 些 常 用 的 itertools 函 数 


函数 说 明 

imap(func, *iterables) 内 置 函数 map 的 生成 器 版 ， 将 func 应 用 于 参数 序列 的 各 个 
打包 元 组 

ifilter(func, iterable) 内 置 函 数 filter 的 生成 器 版 ， 当 func(x) 为 True 时 输出 元 素 x 
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表 A-4: 一 些 常用 的 itertools 函 数 ( 续 ) 


函数 说 明 

combinations(iterable, k) 。 ”生成 一 个 由 iterable 中 所 有 可 能 的 k 元 元 组 组 成 的 序列 (不 
考虑 顺序 ) 

permutations(iterable, k) 生成 一 个 由 iterable 中 所 有 可 能 的 k 元 元 组 组 成 的 序列 ( 考 
虑 顺序 ) 


groupby(iterable[, keyfunc]) 为 每 个 唯一 键 生成 一 个 (key, sub-iterator) 。 








注意 ， 许 多 在 Python 2 (itertools) 中 产生 列表 的 内 置 函 数 (如 zip、map、filter 等 ) ， 在 Python 3 
中 都 被 换 成 了 其 生成 器 版 。 





文件 和 操作 系统 


本 书 的 代码 示例 大 多 使 用 诸如 pandas.read_csv 之 类 的 高 级 工具 将 磁盘 上 的 数据 文件 读 
和 Python 数据 结构 。 但 我 们 还 是 需要 了 解 一 些 有 关 Python 文 件 处 理 方面 的 基础 知识 。 好 
在 它 本 来 就 很 简单 ， 这 也 是 Python 在 文本 和 文件 处 理 方面 的 如 此 流行 的 原因 之 一 。 
为 了 打开 一 个 文件 以 便 读 写 ， 可 以 使 用 内 置 的 open 函 数 以 及 一 个 相对 或 绝对 的 文件 路 
径 : 

In [518]: path = ‘ch13/segismundo.txt" 

In [519]: f = open(path) 
默认 情况 下 ,文件 是 以 只 读 模式 ('r') 打开 的 。 然 后 ， 我 们 就 可 以 像 处 理 列表 那样 来 
处 理 这 个 文件 句柄 f 了 ， 比 如 对 行进 行 迭 代 : 


for line in f: 
pass 


从 文件 中 取出 的 行 都 带 有 完整 的 行 结束 符 (EOL) ， 因 此 你 常常 会 看 到 下 面 这 样 的 代码 
(得 到 一 组 没有 EOL 的 行 ) : 
In [520]: lines = [x.rstrip() for x in open(path)] 


In [521]: lines 

Out[521] : 

[ "Sue\xc3\xbla el rico en su riqueza，， 
"que m\xc3\xals cuidados le ofrecei 


‘sue\xc3\xb1a el pobre que padece'， 
'su miseria y su pobreza;', 
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"Sue\xc3\xb1a el que a medrar empieza,’, 
'sue\xc3\xb1a el que afana y pretende,’, 
"sue\xc3\xbla el que agravia y ofende，， 


'y en el mundo, en conclusi\xc3\xb3n,', 
‘todos sue\xc3\xblan lo que son 
'aunque ninguno lo entiende.， 


如 果 输 入 f = open(path， 'w')， 就 会 有 一 个 新 文件 被 创建 在 ch13/segismundo.txt， 并 
驯 盖 掉 该 位 置 原来 的 任何 数据 。 表 A-5 列 出 了 所 有 可 用 的 文件 读 写 模式 。 

表 A-5: Python 的 文件 模式 

模式 ”说明 

r 只 读 模式 

w ”只 写 模式 。 创 建新 文件 (删除 同名 的 任何 文件 关注 :2) 

a 附加 到 现 有 文件 (如 果 文件 不 存在 则 创建 一 个 ) 

r+ ” 读 写 模式 

附加 说 明 某 模式 用 于 二 进 制 文件 ， 即 'rb' 或 'wb' 

通用 换行 模式 。 单 独 使 用 'U' 或 附加 到 其 他 读 模式 (如 'rU') 





要 将 文本 写 入 文件 ， 可 以 使 用 该 文件 的 write 或 writelines 方 法 。 例 如 ， 我 们 可 以 创建 一 
个 无 空 行 版 的 prof_mod.py 羡 让 3， 如 下 所 示 : 


In [522]: with open('tmp.txt', 'w') as handle: 
.3 handle.writelines(x for x in open(path) if len(x) > 1) 


In [523]: open('tmp.txt').readlines() 
Out[523]: 

['Sue\xc3\xb1a el rico en su riqueza,\n’, 
"que m\xc3\xals cuidados le ofrece;\n’, 
‘sue\xc3\xb1a el pobre que padece\n’, 

"su miseria y su pobreza;\n’, 
"sue\xc3\xb1a el que a medrar empieza,\n’, 
‘sue\xc3\xb1a el que afana y pretende,\n', 
‘sue\xc3\xb1a el que agravia y ofende,\n', 
'y en el mundo, en conclusi\xc3\xb3n, \n', 
"todos sue\xc3\xblan lo que son,\n', 
'aunque ninguno lo entiende.\n’] 


表 A-6 列 出 了 一 些 最 常用 的 文件 方法 。 





译注 12: 这 的 “名 ”包括 路 径 。 


译注 13: 应 该 是 segismundo.txt。 
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表 A-6: 重要 的 Python 文件 方法 或 属性 


方法 说 明 

read([size]) 以 字符 串 形式 返回 文件 数据 ， 可 选 的 size 参 数 用 于 说 明 读 取 的 字 节 数 
readlines([size]) ”将 文件 返回 为 行列 表 ， 可 选 参数 size 

write(stn) 将 字符 串 写 入 文件 

close() 关闭 句柄 

flush() 清空 内 部 /0 缓存 区 ， 并 将 数据 强行 写 回 磁盘 

seek(pos) 移动 到 指定 的 文件 位 置 (整数 ) 

tell() 以 整数 形式 返回 当前 文件 位 置 

closed 如 果 文 件 已 关闭 ， 则 为 True 
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封面 介绍 





本 书 封 面 上 的 那 只 动物 是 一 只 笔 尾 树 多 (拉丁 名 为 Ptilocercus lowii) 。 笔 尾 树 鬼 是 笔 尾 
树 欧 科 (Ptilocercidae) 笔 尾 树 葛 属 (Ptilocercus) 中 的 唯一 物种 ， 其 他 树 欧 都 属于 树 欧 
科 (Tupaiidae) 。 树 购 的 特征 是 长 长 的 尾巴 和 科 软 的 红 棕 色 皮 毛 。 从 名 字 上 就 能 看 出 
来 ， 笔 尾 树 购 有 一 条 形 如 羽毛 笔 的 尾巴 。 树 购 是 杂食 性 动物 ， 以 昆虫 、 水 果 、 种 子 以 及 
小 型 疹 椎 动物 为 主要 食物 。 


主要 分 布 于 印度 尼 西 亚 、 马 来 西亚 和 泰国 ， 这 些 野 生 哺乳 动物 以 惯 于 长 期 饮酒 而 著 
称 。 马 来 西亚 树 葛 每 天 要 花费 数 小 时 食用 天 然 发 酵 的 玻 淡 棕榈 花 宣 ， 相 当 于 大 约 10 到 
12 杯 酒精 含量 为 3.8% 的 酒 。 尽 管 如 此 ， 从 来 也 没有 一 只 笔 尾 树 鬼 喝 醉 过 ， 这 得 归功 于 
筷 们 那 令 人 印象 深刻 的 乙醇 降解 能 力 ， 包 括 一 种 人 类 所 没有 的 酒精 代谢 方式 。 跟 其 他 哺 
乳 动物 相 比 (包括 人 类 ? ) ， 它 们 还 有 另外 一 个 令 人 印象 深刻 的 特点 一 一 大 脑 跟 身 体 的 
质量 比 。 


虽然 这 种 野生 动物 的 名 字 叫 笔 尾 树 多 (pen-tailed tree-shrew) ， 但 它们 并 不 是 真正 的 鼠 
类 (shrew) ,而 是 更 接近 于 灵 长 类 (primates) 。 因 此 ， 树 锡 在 近视 、 心 理 社会 应 激 、 
肝炎 等 医学 实验 中 成 为 灵 长 类 动物 的 一 种 替代 品 。 


